Python爬虫原理与常用模块——urllib与反爬策略

最新推荐文章于 2022-02-20 15:50:59 发布

柏拉图工作室

最新推荐文章于 2022-02-20 15:50:59 发布

阅读量2.9k

点赞数 7

分类专栏： Python全栈笔记

本文链接：https://blog.csdn.net/weixin_47654912/article/details/108730769

版权

本文介绍了HTTP协议的工作原理，阐述了网络爬虫的基本概念和流程，重点讲解了Python中的urllib模块，包括urllib.request的urlopen()和Request类的使用。此外，还讨论了Header伪装、模拟登陆以及如何应对网站的反爬策略，如使用代理IP。

摘要由CSDN通过智能技术生成

1 http协议

1.HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web）服务器传输超文本到本地浏览器的传送协议。

2.HTTP是一个基于TCP/IP通信协议来传递数据（HTML 文件, 图片文件, 查询结果等）。

HTTP三点注意事项：

HTTP是无连接：无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。
HTTP是媒体独立的：这意味着，只要客户端和服务器知道如何处理的数据内容，任何类型的数据都可以通过HTTP发送。客户端以及服务器指定使用适合的MIME-type内容类型。
HTTP是无状态：HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面，在服务器不需要先前信息时它的应答就较快。
以下图表展示了HTTP协议通信流程：

关键字	说明
Request URL	请求的URL地址
Request Method	请求方法
Status Code	状态码
Remote Address	远端地址
Connection	连接类型
Content-Encoding	数据压缩方式常用压缩算法： Content-Encoding:gzip Content-Encoding:compress Content-Encoding:deflate Content-Encoding:identity Content-Encoding:br
Content-Type	互联网媒体类型 text/html HTML格式 text/plain: 文本格式 text/xml: XML格式 image/gif: gif图片格式 image/jpeg: jpg图片格式 image/png: png图片格式 application/xhtml+xml: XHTML格式 application/xml:XML数据格式 application/atom+xml Atom XML聚合格式 application/json JSON数据格式 application/pdf: pdf格式 application/msword: Word文档格式 application/octet-stream 二进制流数据（例如文件下载）application/x-www-form-urlencoded: 普通表单提交 multipart/form-data 表单文件上传
Accept	发送端希望接受的数据类型
text()	文本内容
User-Agent	Agent 用户代理
Accept-Encoding	发送端支持的压缩算法
Cookie	Cookie
Accept-Language	发送端支持的语言
Cache-Control	缓存机制