学会Requests，轻松获取响应数据！

最新推荐文章于 2024-05-30 20:49:48 发布

恬488

最新推荐文章于 2024-05-30 20:49:48 发布

阅读量766

点赞数 2

文章标签： python request 数据分析 curl

本文链接：https://blog.csdn.net/weixin_56666054/article/details/115516036

版权

大家好，我是小瑜！
今天我来给介绍一个常用的库—requests来获取数据。文末给大家准备了cURL转换器领取。
在开始使用requests之前，需要使用下面的命令安装requests。
pip install requests # Mac电脑
pip3 install requests # Windows电脑
requests库可以帮我们下载网页源代码、文本、图片，甚至是音频。其实，“下载”本质上是向服务器发送请求并得到响应。

GET请求
向服务器端发送HTTP GET请求是最常见的操作之一，如果只是简单地发送GET请求，只需将URL传入get方法即可。要想为GET请求指定参数，可以使用get方法的params参数，该参数需要是一个字典类型的值。如果同时在URL中和params参数指定GET请求的参数，那么get方法会将参数合并。实例如下：

import requests
params = (
   ('cl', '3'),
   ('tn', 'baidutop10'),
   ('fr', 'top1000'),
   ('wd', '\u59D4\u5458\u5EFA\u8BAE\u7537\u5973\u5171\u62C5\u793E\u4F1A\u5316\u5206\u62C5\u5BB6\u52A1'),
   ('rsv_idx', '2'),
   ('rsv_dl', 'fyb_n_homepage'),
   ('hisfilter', '1'),
)
response = requests.get('https://www.baidu.com/s',params=params)
print(response.text)

运行结果如下：
在这里插入图片描述

在这里并没有我们想要的内容，这是因为我们还没有加请求头，下面我们来加上请求头看看。

添加HTTP请求头
有很多网站，在访问其Web资源时，必须设置一些HTTP请求头，如User-Agent、Host、Cookie等，否则网站服务端会限制访问这些Web资源。使用get方法为HTTP添加请求头相当容易，只需要设置get方法的headers参数即可。实例如下：

import requests
cookies = {
 'BIDUPSID': 'C18361A64764F59D646052EE4AD79175',
 'PSTM': '1615270228',
 'BDRCVFR[RLNFFabN1tf]': 'mk3SLVN4HKm',
 'BAIDUID': 'C18361A64764F59DA5EF8CC25D35CD7C:FG=1',
 'BD_HOME': '1',
 'BD_UPN': '12314753',
 'BDRCVFR[S4-dAuiWMmn]': 'gPGGOZY-30sfj63njb1nWRkg1RLgv99',
 'delPer': '0',
 'BD_CK_SAM': '1',
 'PSINO': '2',
 'H_PS_PSSID': '33256_33344_31253_33594_33570_33392_33600_33604_33459_26350_22157',
 'H_PS_645EC': '8ffbimOuh1Rt%2FHBU7k%2FLARKLTxIx9QZBQ8MC5l5R83NAhtJrZ8wxGdpolO57H5he%2BA',
 'BA_HECTOR': '0g2l84002404818ltc1g4e4ao0q',
 'BDORZ': 'B490B5EBF6F3CD402E515D22BCDA1598',
}
headers = {
 'Connection': 'keep-alive',
 'Cache-Control': 'max-age=0',
 'Upgrade-Insecure-Requests': '1',
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36',
 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
 'Sec-Fetch-Site': 'same-origin',
 'Sec-Fetch-Mode': 'navigate',
 'Sec-Fetch-User': '?1',
 'Sec-Fetch-Dest': 'document',
 'Referer': 'https://www.baidu.com/?tn=88093251_57_hao_pg',
 'Accept-Language': 'zh-CN,zh;q=0.9',
}
params = (
   ('cl', '3'),
   ('tn', 'baidutop10'),
   ('fr', 'top1000'),
   ('wd', '\u59D4\u5458\u5EFA\u8BAE\u7537\u5973\u5171\u62C5\u793E\u4F1A\u5316\u5206\u62C5\u5BB6\u52A1'),
   ('rsv_idx', '2'),
   ('rsv_dl', 'fyb_n_homepage'),
   ('hisfilter', '1'),
)
response = requests.get('https://www.baidu.com/s', headers=headers, params=params, cookies=cookies)
print(response.text)

程序运行结果部分图：
在这里插入图片描述

加上请求头后，我们请求的数据就多了！

抓取二进制数据
get方法指定的URL不仅可以是网页，还可以是任何二进制文件，如png图像、pdf文档等。一般获取二进制数据，需要将数据保存到本地文件中。所以需要调用content属性获得bytes形式数据，然后在保存到文件中即可。
响应数据
发送HTTP请求后，get方法会返回响应，Response对象还有很多属性和方法可以用来获取更多的响应信息。如状态码、响应头、Cookie等等。在获得响应结果后，通常需要判断状态码，如果状态码是200，说明服务端成功响应了客户端，如果不是200，那就是有错误，需要进行检查处理。
查询状态码方式：

response = requests.get('https://www.baidu.com/s', headers=headers, params=params, cookies=cookies)
print(response.status_code)

使用代理现在爬取很多网站可能会导致封掉自己的ip，所以我们需要使用代理ip，保护好自己的ip，requests使用代理发送请求非常容易，只需指定proxies参数即可。

import requests
proxies = {
 "http": "http://10.10.1.10:3128",
 "https": "https://10.10.1.10:1080",
}
requests.get("http://example.org", proxies=proxies)

6.身份验证
使用requests进行身份验证十分简单，只需设置auth参数即可。auth参数的值是一个HTTPBasicAuth对象，封装了用户名和密码。

import requests
from requests.auth import HTTPBasicAuth
url = "http://httpbin.org"
#身份验证-BasicAuth
r = requests.get(url+"/basic-auth/51zxw/8888",auth=HTTPBasicAuth('51zxw','8888'))
print(r.text)

程序运行结果如下：
在这里插入图片描述

总结

requests库的用法十分简单，大家只需多加练习即可。其中前两个最常用，大家仔细阅读。
如果大家觉得请求头或者其他参数不太好找，建议大家使用cURL，可以一键构造出来，以后爬虫只需要提取和存储数据即可，不用在操构建请求的心思了！
点击领取URL转换器！提取码：qwer

恬488

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学会Requests，轻松获取响应数据！

大家好，我是小瑜！今天我来给介绍一个常用的库—requests来获取数据。文末给大家准备了cURL转换器领取。在开始使用requests之前，需要使用下面的命令安装requests。pip install requests # Mac电脑pip3 install requests # Windows电脑requests库可以帮我们下载网页源代码、文本、图片，甚至是音频。其实，“下载”本质上是向服务器发送请求并得到响应。GET请求向服务器端发送HTTP GET请求是最常见的操作之一，如果只是
复制链接

扫一扫