爬虫
文若、
这个作者很懒,什么都没留下…
展开
-
cookie与session区别
cookie和session区别cookie数据存放在客户端的浏览器上,session数据放在服务器上。cookie不是很安全,别⼈可以分析存放在本地的cookie并进⾏cookie欺骗session会在⼀定时间内保存在服务器上。当访问增多,会⽐较占⽤你服 务器的性能单个cookie保存的数据不能超过4K,很多浏览器都限制⼀个站点最多保存 20个cookie爬⾍处理cookie和session带上cookie、session的好处:能够请求到登录之后的⻚⾯带上cookie、session的弊端原创 2020-11-02 17:42:02 · 252 阅读 · 0 评论 -
requests模块认识学习
1. 安装 pip install requests开发工具安装:file—settings—project spider—添加模块2. 常用方法requests.get(网址)3. 响应对象response的方法response.text 返回unicode格式的数据(str)response.content 返回字节流数据(⼆进制)response.content.decode(‘utf-8’) 手动进行解码response.url 返回url response.encode()原创 2020-11-02 17:35:25 · 123 阅读 · 0 评论 -
urllib模块认识学习
1. urllib.request模块1.1 版本python2 :urllib2、urllibpython3 :把urllib和urllib2合并,urllib.request1.2 常用的方法urllib.request.urlopen(“网址”) 作用:向网站发起⼀个请求并获取响应字节流 = response.read()字符串 = response.read().decode(“utf-8”)urllib.request.Request"网址",headers=“字典”) urlo原创 2020-11-02 17:00:51 · 105 阅读 · 0 评论 -
爬虫request库简单使用
为什么要学习requests,⽽不是urllib1 requests的底层实现就是urllib2 requests在Python2和Python3通⽤,⽅法完全⼀样3 requests简单易⽤4 requests能够⾃动帮助我们解压(gzip压缩的)⽹⻚内容requests的作用作⽤:发送⽹络请求,返回相应数据requests中解决编码的⽅法: r.content.decode('utf-8') b: 字节 r.text str: 字符串response.text 和 respo原创 2020-08-14 10:23:57 · 119 阅读 · 0 评论 -
常用的请求报头
一个典型的HTTP请求实例组成:1.Host (主机和端⼝号)Host:对应⽹址URL中的Web名称和端⼝号,⽤于指定被请求资源的Internet 主机和端⼝号,通常属于URL的⼀部分。2.Connection (链接类型)Connection:表示客户端与服务连接类型Client 发起⼀个包含 Connection:keep-alive 的请求,HTTP/1.1 使⽤ keep-alive 为默认值。Server收到请求后:1.如果 Server ⽀持 keep-alive,回复⼀个原创 2020-08-14 09:54:37 · 516 阅读 · 0 评论 -
爬虫之客户端请求与服务端响应
HTTP协议简介协议概念:通信计算机双⽅必须共同遵从的⼀组约定,只有遵守这个约定,计算机之间才能相互通信HTTP协议(HyperText Transfer Protocol,超⽂本传输协议):是⼀种发布和接收HTML页面的⽅法HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加⼊SSL层SSL(Secure Sockets Layer 安全套接层)主要⽤于Web的安全传输协议,在传输层对⽹络连原创 2020-08-14 09:37:07 · 470 阅读 · 0 评论 -
爬虫的相关分类
根据使⽤场景,⽹络爬⾍可分为: 通⽤爬⾍ 聚焦爬⾍通用爬虫与聚焦爬虫工作流程:通用爬虫(搜索引擎)流程:通⽤⽹络爬⾍,是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要⽬的是将互联⽹上的⽹⻚,下载到本地,形成⼀个互联⽹内容的镜像备份。通用搜索引擎(Search Engine)工作原理通⽤⽹络爬⾍,从互联⽹中搜集⽹⻚,采集信息,这些⽹⻚信息⽤于为搜索引擎,建立索引而提供⽀持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎原创 2020-08-14 09:27:23 · 261 阅读 · 0 评论 -
爬虫的学习之路
1. 爬虫介绍爬虫的定义⽹络爬⾍(⼜被称为⽹⻚蜘蛛,⽹络机器⼈)就是模拟客户端发送⽹络请求, 接收请求响应,⼀种按照⼀定的规则,⾃动地抓取互联⽹信息的程序。 只要是浏览器能做的事情,原则上爬⾍都能够获取数据的来源企业⽣产的⽤户数据数据管理咨询公司政府/机构提供的公开的数据第三⽅数据平台购买数据爬⾍爬取数据爬虫怎么抓取网页上的数据?⽹⻚三⼤特征:1 ⽹站都有⾃⼰唯⼀的URL2 ⽹⻚都是HTML来描述⻚⾯信息3 ⽹⻚都使⽤HTTP/HTTPS协议来传输HTML数据爬⾍的设计思路:原创 2020-08-13 21:25:19 · 62 阅读 · 0 评论