爬虫必学库【requests】

最新推荐文章于 2024-10-03 16:52:07 发布

黑色史莱姆

最新推荐文章于 2024-10-03 16:52:07 发布

阅读量734

点赞数 5

分类专栏：爬虫实习期文章标签：爬虫网络

本文链接：https://blog.csdn.net/weixin_63304209/article/details/136067708

版权

17 篇文章 1 订阅

订阅专栏

本文详细介绍了如何在Python的requests库中进行HTTP请求，包括设置User-Agent、处理重定向、使用Session保持会话状态、设置超时和异常处理。同时讨论了Session的优缺点，以及常见问题的解决方法，以构建合规的爬虫系统。

摘要由CSDN通过智能技术生成

Python的requests库是一个非常流行且易于使用的HTTP客户端库，它广泛应用于网络爬虫领域。在爬虫中，requests可以用来发送HTTP请求，获取网页内容或者与API进行交互。

设置请求头（User-Agent）： 网站往往根据User-Agent来判断访问者是否为真实用户或爬虫。因此，模拟浏览器的User-Agent可以减少被识别为爬虫的风险。
处理重定向： requests默认会处理重定向，但有时我们需要获取重定向前的响应信息，可以设置allow_redirects为False来禁止自动重定向。
使用会话（Sessions）： Session对象允许你在跨请求时保持某些参数，它也会在同一个Session实例发出的所有请求之间保持cookies。
超时设置： 总是为requests调用设置timeout参数，以避免程序永远挂起等待响应。
异常处理： 使用try/except块来捕获如ConnectionError，Timeout等异常。
限制最大重试次数： 通过requests.adapters.HTTPAdapter来设置最大重试次数，避免某些临时问题导致请求失败。
代理使用： 在需要避免IP被封或者进行地区内容访问时，使用代理是一个好办法。

requests.Session的特点：

保持连接（Connection pooling）： Session对象将会在同一个Session实例的请求之间重用底层的TCP连接，这意味着减少了TCP连接的建立和关闭的时间，提高了效率。
保持Cookies： 对于需要登录后才能获取数据的网站，Session可以保持登录状态，因为它可以跨请求保存cookies。

优点：

缺点：

被网站封禁： 使用代理服务，设置合适的请求头，增加请求间隔时间。
SSL证书验证失败： 如果确定不是中间人攻击，可以设置verify=False来忽略SSL证书验证（不推荐）。
重定向问题： 通过设置allow_redirects参数来控制重定向。
编码问题： 确认网页的正确编码方式，如果requests没有正确识别，可以手动指定（response.encoding='utf-8'）。
登录状态维持： 使用Session对象来保持cookies，维持会话。
数据提交： 确认正确的HTTP方法（GET, POST, PUT等）和所需的数据格式（表单，JSON等），在请求中设置正确的参数。
动态内容加载： 如果网页内容是通过JavaScript动态加载的，requests无法直接获取，需要结合Selenium或Pyppeteer等工具。