cookie在爬虫中的应用

最新推荐文章于 2024-06-14 14:39:43 发布

生信修炼手册

最新推荐文章于 2024-06-14 14:39:43 发布

阅读量1.6k

点赞数 1

文章标签： jwt session cookie nagios sms

本文链接：https://blog.csdn.net/weixin_43569478/article/details/109252909

版权

本文介绍了在爬虫中如何利用Cookie进行登录认证。通过从浏览器获取或模拟登录动态获取Cookie，以此绕过登录限制访问受保护的内容。文中提到了使用urllib和requests模块处理Cookie的方法，并探讨了自动管理Cookie的http.cookiejar库。文章强调，虽然手动管理Cookie简单，但模拟登录和管理时效性是挑战。

摘要由CSDN通过智能技术生成

欢迎关注”生信修炼手册”!

当爬取需要登录之后才可以获取的页面时，我们就可以借助cookie来实现。cookie是一种存储在本地浏览器中的用户认证信息，具体表现为一串字符串。当我们在浏览器中登录之后，可以通过F12查看对应的cookie信息，示例如下

cookie的表现形式是键值对，类似python中的字典，可以有多个键，有些网站还会对值进行加密处理。

cookie是一个动态信息，是和服务器交互之后生成的，具有时效性，在有效期内，cookie可以保持用户的登录状态，避免重复登录。当我们手动重新登录时，可以看到cookie的信息发生了变化

利用cookie的这一特性，一个简便的爬取办法是从浏览器获取cookie, 然后用该cookie来与网站交互，从而绕过了登录的限制。在urllib模块中的用法如下

>>> headers = {
...   'Cookie': 'sessionid=feli4ngf23njptxxb0qma5tl04x8wc43; csrftoken=O9YSm7TMaIb2ZdqEnENJY1GBXj3xUE26',
...   'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
... }
>>> request = urllib.request.Request('http://www.test.com', headers = headers)
>>> response = urllib.request.urlopen(request)

requests模块中的用法如下

>>> import requests
>>> headers = {
...   'Cookie': 'sessionid=feli4ngf23njptxxb0qma5tl04x8wc43; csrftoken=O9YSm7TMaIb2ZdqEnENJY1GBXj3xUE26',
...   'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
... }
>>> r = requests.get('http://www.test.com', headers=headers)

如果是短时的数据采集操作，用这种方式还是相当便利的。为了克服cookie的时效性问题，也可以通过爬虫模拟登录，然后动态获取cookie信息。当然，模拟登录是比较复杂的，对于简单的用户名和密码登录的网站，程序处理还比较简单，对于需要验证码的网站