ECommerceCrawlers项目分析（九）

最新推荐文章于 2024-07-22 22:58:19 发布

enwwen

最新推荐文章于 2024-07-22 22:58:19 发布

阅读量134

点赞数

文章标签： python 爬虫 pycharm

本文链接：https://blog.csdn.net/weixin_45859345/article/details/121842727

版权

2021SC@SDUSC

本篇文章将讲述requests中的cookie的使用方法

一、什么是cookie

当用户通过浏览器首次访问一个域名时，访问的web服务器会给客户端发送数据，以保持web服务器与客户端之间的状态保持，这些数据就是cookie，它是Internet站点创建的，为了辨别用户身份而储存在用户本地终端上的数据，cookie大部分都是加密的，cookie存在与缓存中或者硬盘中，在硬盘中的是一些文本文件，当你访问该网站时，就会读取对应的网站的cookie信息，cookie有效地提升了用户体验，一般来说，一旦将cookie保存在计算机上，则只有创建该cookie的网站才能读取它。

在需要输入登陆账号和密码的网站就可以利用Cookie来获取数据，比如csdn。

二、两种cookie请求方式

cookie放在headers中

headers中有User-Agent和Cookie两个属性，只需给它们赋上相应的值即可

例如

import requests

url = "https://blog.csdn.net/williamgavin"

headers = {"User_Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",
    "Cookie" : "这个还是算了吧，用你们自己的博客试 ^-^ "
}
response = requests.get(url, headers = headers )
with open("csdn.html", "w", encoding="utf-8") as f:
    f.write(response.content.decode());

cookie字典传给cookies参数

这里以请求人人网为例：

找到对应的cookie和User-Agent

这里写图片描述

import requests

url = "http://www.renren.com/967272361/profile"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",
}

# 不带上Cookie就访问不了这个页面
cookie = "anonymid=jk63khrk-y97r4p; _r01_=1; ln_uact=mr_mao_hacker@163.com; ln_hurl=http://hdn.xnimg.cn/photos/hdn421/20180720/1740/main_JAWQ_0aa000000ceb195a.jpg; _ga=GA1.2.273332130.1532825428; depovince=HUN; JSESSIONID=abcE5k0CiAJDc9ESVEcuw; ick_login=026ba348-e4e9-4871-9ce3-5868b95cfdd3; first_login_flag=1; loginfrom=syshome; wp_fold=0; BAIDU_SSP_lcr=https://www.baidu.com/link?url=VRx_HKUd53I5rYWZHvrQ9VVLotqST6-jtaZDlscFYCO&wd=&eqid=e957aec400037928000000065b64fcab; ick=64518f30-9a22-47df-b3c3-4114f185c3c6; t=8fcf47068763c279eea2620b51b7a3311; societyguester=8fcf47068763c279eea2620b51b7a3311; id=967272361; xnsid=fd736c63; jebecookies=3f9a3853-3371-4857-8268-308d663ca146|||||; jebe_key=19041c4e-4d38-4dc1-bfb9-124b81afae61%7C33b1d8f602cf6dd5a9834fe6f2bf97f2%7C1533346094265%7C1%7C1533346099750"

# 将上面哪个cookie转化成字典类型
cookie_dict = {i.split("=")[0]:i.split("=")[-1] for i in cookie.split("; ")}
response = requests.get(url, headers = headers, cookies = cookie_dict)

with open("renren2.html", "w", encoding="utf-8") as f:
    f.write(response.content.decode())

文章参考了此篇博客小白学爬虫（三）-- requests库之Cookie

enwwen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ECommerceCrawlers项目分析（九）

2021SC@SDUSC本篇文章将讲述requests中的cookie的使用方法一、什么是cookie当用户通过浏览器首次访问一个域名时，访问的web服务器会给客户端发送数据，以保持web服务器与客户端之间的状态保持，这些数据就是cookie，它是Internet站点创建的，为了辨别用户身份而储存在用户本地终端上的数据，cookie大部分都是加密的，cookie存在与缓存中或者硬盘中，在硬盘中的是一些文本文件，当你访问该网站时，就会读取对应的网站的cookie信息，cookie有效地提升了用户体
复制链接

扫一扫