python爬虫期末复习笔记,基础传智播客书 《解析Python网络爬虫》

本文介绍了Python爬虫的基础知识,包括通用爬虫和聚焦爬虫的区别,以及累积式和增量式爬虫的爬取形式。详细讲解了网页浏览过程、URL结构和HTTP请求,特别提到了Urllib库的使用。此外,还讨论了数据解析的重要考点,如XPath和Lxml库,以及BeautifulSoup解析方法。最后,概述了动态网页的处理,包括Selenium库的使用和模拟浏览器操作。
摘要由CSDN通过智能技术生成

使用场景区分:通用爬虫和聚焦爬虫
通用爬虫:将互联网上的网页下载到本地。
聚焦爬虫:按照特定目的进行工作的爬虫
爬取形式进行区分:累积式爬虫和增量式爬虫
累积式爬虫:通过遍历的方式爬取所有允许的内容
增量式爬虫:在爬取了大量网页前提的基础下爬取网页更新的内容
按照爬取数据的存在方式进行区分:表层爬虫 和深层爬虫
表层爬虫:爬取网页表层的内容
深层爬虫:不能通过静态网页显示的内容
(建议记住名字)
浏览网页的过程

  1. DNS解析器解析你输入的网址,解析成对应的ip地址
  2. 向对应的ip地址发送请求
  3. Web服务器,返回请求的网页
  4. 浏览器解析html的内容,并显示出来

URL地址由协议头,服务器地址,文件路径三部分组成
例:http://www.770aa.com/ index/data
http协议头 www.770aa.com服务器地址(会被dns服务器解析格式例如10.10.10.211/分割表示路径)
域名:一个域名只能对应一个ip地址,但是一个ip地址可以对应多个域名
Get请求与put请求“:get请求所有参数都显示在url上,post请求数据隐藏通常用来向服务器提交数据
响应状态码
100~199:表示服务器接收到消息,需要客户端继续提交才能完成整个过程
200~299:表示服务器成功接收处理问题。
300~399:需要客户端继续细化请求,例如请求资源转移到了新的地址(302)
400~499:客户端请求错误,404服务器无法找到请求的页面,403客户权限不够
500~599:服务器出错

Urllib库
urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse url解析模块
urlopen :request下的一个方法参数

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
注意:
Data必须是一个bytes对象
Timeout 设置超时
剩下两个cadefault、context很少使用书上有介绍懒得打。

最简单的urlopen使用
注意直接返回的对象无法直观看到需要用read方法解析,decode进行编码进行可视化的浏览
如果需要对爬取的网页进行更复杂的操作就需要构造Request对象
构建request 对象可以添加请求头,数据等等

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值