requests库详解+HTTP协议理解等

最新推荐文章于 2024-08-14 10:50:03 发布

格瑞瑞瑞瑞瑞

最新推荐文章于 2024-08-14 10:50:03 发布

阅读量594

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_45375560/article/details/104229928

版权

本文详细介绍了requests库在Python中的使用，包括HTTP协议的基础概念、Request与Response的交互，以及HTTP请求的状态管理和响应处理。同时，文章还探讨了HTTP协议的无状态特性、URL结构、robots协议和Cookie的应用。通过实例展示了requests库的常见操作，如设置请求头、处理编码问题，以及如何应对网站的防爬策略。

摘要由CSDN通过智能技术生成

🏐将以一个典型的requests库应用为例

import requests
def getHTML(url):
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text

🎈分步详解

🎏综述

request库常用作获取网页。

获取的✔ >>> 不仅仅指uHTML，并且还是下载这个网页的内容，比如图片或者文本等。
得到的✔ >>> 就目前所学到的来讲，并不是JS解析后的，而是一开始就写在了代码中的。
🎱补充:当我们查看网页的源代码时，有两个方法，分别是 ▪F12 >>> 查看开发者工具；▪右键查看/CTRL+U. 前者得到的代码是JS解析之后的，而后者则是直接在源代码中的，也就是我们能直接get的。
这也就是为什么我们打开开发者工具看到了的内容，却不能解析的原因

🎏 Request 与 Response

r = requets.get(url)

这个过程实际上是向服务器发送了请求并且得到了Response。这个语句中有两个对象，一个是Request，一个是Response。
在Request，可以说就是get后面所包含的，里面有我们发送给服务器的User-agent等信息，而这个信息对于我们能不能获取很有帮助。因为网页有防止爬虫获取的一个手段就是检查来源，也就是看你的user-agent是不是市面上已知的浏览器。Response也就是我们得到的。

🐱‍🏍HTTP协议

🎐HTTP，超文本传输协议。

HTTP是1-2-3(基于XX模式的无状态的应用层协议)

基于"请求与响应"模式的 >>> 用户发送请求，服务器做出响应
无状态的 >>> 是指前后请求无关联，即是第一次请求和第二次请求无关联。具体来讲实际上是指，Web浏览器与Web服务器之间不需要建立持久的连接。当一个客户端向服务器端发出请求，服务器返回响应(Response)，链接也就关闭了，在服务器端不保留链接的有关信息，HTTP请求只能由客户端发起，服务器不能主动向客户端发送数据。
应用层协议 >>> 是指该协议工作在TCP协议之上