requests模块的使用详解

最新推荐文章于 2022-03-05 18:07:19 发布

冰履踏青云

最新推荐文章于 2022-03-05 18:07:19 发布

阅读量6.8k

点赞数 19

分类专栏：爬虫文章标签： requests模块的使用

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/weixin_44327634/article/details/108836213

版权

爬虫专栏收录该内容

57 篇文章 24 订阅

订阅专栏

文章目录

为什么要重点学习requests模块，而不是urllib
requests模块发送简单的get请求、获取响应
使用requests保存图片
发送带header的请求
url 带参数的两种请求方式
使用requests发送POST请求
代理ip的使用
cookie的使用
cookirJar的处理方法
处理证书错误
超时参数的使用
retrying模块的使用

为什么要重点学习requests模块，而不是urllib

requests的底层实现就是urllib
requests在python2 和python3中通用，方法完全一样
requests简单易用
Requests能够自动帮助我们解压(gzip压缩的等)响应内容

requests模块发送简单的get请求、获取响应

requests的作用就是发送网络请求，返回响应数据，那么现在
有一个简单的需求：通过requests向百度首页发送请求，获取百度首页的数据
示例：

import requests 
# 目标url
url = 'https://www.baidu.com' 
# 向目标url发送get请求
response = requests.get(url)
# 打印响应内容
print(response.text)

常用属性演示：


import requests

# 确定url
url = "https://www.baidu.com/"

#  使用requests发送get请求,获取响应
res = requests.get(url)
# res.encoding = res.apparent_encoding
print(res)  # <Response [200]>  200代表状态码
# print(res.text)  # 返回响应文本,str字符串类型
# response.text： requests库会自动找编码
# print(res.encoding)  # requests库认为的编码方式 ISO-8859-1

# print(res.content)  # 返回响应源码，bytes类型
# print(res.content.decode('utf-8'))  # 把响应的bytes源码转为str类型

# print(res.status_code)  # 当前请求的响应码

# print(res.request.headers)  # 查看请求的请求头

# print(res.headers)  # 查看响应头

# print(res.request.cookies)  # 查看请求的cookie

# print(res.cookies) # 查看响应的cookies

注意：如果response.text有乱码解决办法:

response.content.decode()
response.content.decode(‘gbk’)
response.content.decode(‘unicode_escape’)

使用requests保存图片

首先找到图片的url地址
发送get请求，获取响应源码(response.content)
用二进制写入的方式打开文件,写入图片的响应源码
程序示例：

import requests

# 确定url
url = 'https://www.baidu.com/img/bd_logo1.png'

# 发送请求获取响应
response = requests.get(url)

with open('baidu.png', 'wb')as f:
    f.write(response.content)

发送带header的请求

为什么请求需要带上header？
因为网站往往都会检测请求头的User-Agent，如果ua不合法，可能会获取不到响应。所以加请求头的目的就是模拟浏览器，欺骗服务器，获取和浏览器一致的内容。当然，有的时候甚至不止需要传User-Agent一个参数，还需要其他的参数像Referer,Cookie等等

header的形式：字典

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

用法
requests.get(url, headers=headers)

代码示例：

import requests
url = 'https://www.baidu.com'
headers = {
	"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"
}
# 在请求头中带上User-Agent，模拟浏览器发送请求
response = requests.get(url, headers=headers) 
print(response.content)

url 带参数的两种请求方式

目标url = 'https://www.baidu.com/s?wd=python’

# 方式一：直接发送带参数的url的请求
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
url = 'https://www.baidu.com/s?wd=python'
# kw = {'wd': 'python'}
# url中包含了请求参数，所以此时无需params
response = requests.get(url, headers=headers)
print(response.content)

# 方式二：利用params参数发送带参数的请求
import requests
headers = {
	"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"
}
# 最后有没有问号结果都一样
url = 'https://www.baidu.com/s?' 
# 请求参数是一个字典 即wd=python
kw = {'wd': 'python'} 
# 带上请求参数发起请求，获取响应
response = requests.get(url, headers=headers, params=kw) 
# 当有多个请求参数时，requests接收的params参数为多个键值对的字典，比如 '?wd=python&a=c'-->{'wd': 'python', 'a': 'c'}
print(response.content)

使用requests发送POST请求

那么哪些地方我们会用到POST请求？

1.登录注册（ POST 比 GET 更安全）
2.需要传输大文本内容的时候（ POST 请求对数据长度没有要求）
所以同样的，我们的爬虫也需要在这两个地方模拟浏览器发送post请求

用法：

 response = requests.post("http://www.baidu.com/", \
  data = data,headers=headers)

data 的形式：字典

以百度翻译为例：
1.抓包确定请求的url地址
在这里插入图片描述
2.确定请求的参数

3.发送请求，获取响应

代码示例：

import requests

# 确定请求的url地址
url = "https://fanyi.baidu.com/langdetect"

#  构造表单
data = {
    "query": 'I am fine'
}
#  表单数据是放在请求体中的

#  发送请求，获取响应
response = requests.post(url, data=data)

#  打印响应的内容
print(response.text)

代理ip的使用

为什么要使用代理？
为了让服务器以为不是同一个客户端在请求，防止我们的真实地址被泄露，防止被追究
过程：
在这里插入图片描述
正向代理和反向代理

正向代理：给客户端做代理，隐藏客户端的ip地址，让服务器不知道客户端的真实ip地址

反向代理: 给服务器做代理，隐藏服务器的真实ip地址，同时可以实现负载均衡，处理静态文件请求等作用,比如nginx

代理IP的分类
根据代理ip的匿名程度，代理IP主要可以分为下面三类：

1.透明代理(Transparent Proxy)：透明代理虽然可以直接“隐藏”你的IP地址，但是还是可以查到你是谁。
2.匿名代理(Anonymous Proxy)：使用匿名代理，别人只能知道你用了代理，无法知道你是谁。
3.高匿代理(Elite proxy或High Anonymity Proxy)：高匿代理让别人根本无法发现你是在用代理，所以是最好的选择。

在使用的时候，毫无疑问使用高匿代理效果最好

从请求使用的协议可以分为：

http代理
https代理
socket代理等
不同分类的代理，在使用的时候需要根据抓取网站的协议来选择。

来这里分享几个代理获取的好地方；

http://ip.kxdaili.com/ 开心代理
https://proxy.mimvp.com/free.php 米扑代理
http://www.xiladaili.com/ 西拉免费代理IP
http://ip.jiangxianli.com/ 免费代理IP库
http://www.superfastip.com/ 极速代理
https://proxy.mimvp.com/free.php 米扑代理
http://www.shenjidaili.com/open/ 神鸡代理IP
http://31f.cn/http-proxy/ 三一代理
http://www.feiyiproxy.com/?page_id=1457 飞蚁代理
http://ip.zdaye.com/dayProxy/2019/4/1.html 站大爷
http://www.66ip.cn 66免费代理网
https://www.kuaidaili.com/free/inha 快代理
https://www.xicidaili.com 西刺
http://www.ip3366.net/free/?stype=1 云代理
http://www.iphai.com/free/ng IP海
http://www.goubanjia.com/ 全网代理
http://www.89ip.cn/index.html 89免费代理
http://www.qydaili.com/free/?action=china&page=3 旗云代理

可以找免费代理，也可以找付费代理，最好用高匿名的，响应时间短的
在这里插入图片描述
使用示例：

import requests

#  代理的使用

url = "https://www.baidu.com"

proxy = {
    'http': "125.108.108.165:9000"
}

response = requests.get(url, proxies=proxy)

print(response.text)

代理IP使用的注意点
反反爬使用代理ip是非常必要的一种反反爬的方式，但是即使使用了代理ip，对方服务器任然会有很多的方式来检测我们是否是一个爬虫，比如：一段时间内，检测IP访问的频率，访问太多频繁会屏蔽；检查Cookie，User-Agent，Referer等header参数，若没有则屏蔽；服务方购买所有代理提供商，加入到反爬虫数据库里，若检测是代理则屏蔽等。所以更好的方式在使用代理ip的时候使用随机的方式进行选择使用，不要每次都用一个代理ip

代理ip池的更新
购买的代理ip很多时候大部分(超过60%)可能都没办法使用，这个时候就需要通过程序去检测哪些可用，把不能用的删除掉。

cookie的使用

为了能够通过爬虫获取到登录后的页面，或者是解决通过cookie的反扒，需要使用request来处理cookie相关的请求

爬虫中使用cookie的利弊

带上cookie的好处:
1.能够访问登录后的页面
2.0能够实现部分反反爬

带上cookie的坏处:

一套cookie往往对应的是一个用户的信息，请求太频繁有更大的可能性被对方识别为爬虫
如何解决 ?使用多个账号

requests处理cookie的方法
使用requests处理cookie有三种方法：
以登陆人人网 http://www.renren.com/PLogin.do 为例：
1.cookie字符串放在headers中

import requests

#  使用cookie来实现模拟登陆

url = "http://www.renren.com/972035912/newsfeed/photo"
#  这里是登陆以后的url

headers = {
    "cookie的name":"cookie的value"
}

# 在请求头中定义登陆后的cookie,代入到请求中
response = requests.get(url, headers=headers)

print(response.text)

2.把cookie字典放传给请求方法的cookies参数接收

cookie_dict = {"cookie的name":"cookie的value"} # 登陆后的cookies,同上
requests.get(url,headers=headers,cookies=cookie_dict}

3.使用requests提供的session模块

import requests

url = "http://www.renren.com/PLogin.do"

#  构造formdata，填写自己的账号和密码
data = {
    "email": "xxxxx",
    "password": "xxxxx"
}


#  session的使用: 在请求之前创建session对象
session = requests.Session()

#  后续的请求都由session来发起,因为session中保存了用户的登陆信息
session.post(url, data=data)

response = session.get("http://www.renren.com/972035912/newsfeed/photo")
#  使用session请求登陆后的界面
print(response.text)

cookirJar的处理方法

使用request获取的resposne对象，具有cookies属性，能够获取对方服务器设置在本地的cookie，但是如何使用这些cookie呢？

response.cookies是CookieJar类型
使用requests.utils.dict_from_cookiejar，能够实现把cookiejar对象转化为字典

示例：

import requests
from requests.utils import dict_from_cookiejar, cookiejar_from_dict

url = "http://www.baidu.com"

response = requests.get(url)

dict_cokie = dict_from_cookiejar(response.cookies)
print(dict_cokie) # {'BDORZ': '27315'}

print(cookiejar_from_dict(dict_cokie)) # <RequestsCookieJar[<Cookie BDORZ=27315 for />]>

处理证书错误

请看以下代码：

import requests

url = "https://mip.tutumanhua.com/"

r = requests.get(url)

print(r.content.decode())

运行后出现这个问题的原因是：ssl的证书不安全导致。

在这里插入图片描述
解决办法：
如果碰到了SSLError,就在请求中添加verify=False
如下：

import requests

url = "https://mip.tutumanhua.com/"

r = requests.get(url, verify=False)

print(r.content.decode())

超时参数的使用

在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，这个时候我们就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错。
使用方法如下：

response = requests.get(url,timeout=3)
 #  请求如果在规定时间之内(3秒钟内)没有得到响应，就会抛出超时错误

通过添加timeout参数，能够保证在规定时间之内返回响应，否则会报错。

注意：
这个方法还能够拿来检测代理ip的质量，如果一个代理ip在很长时间没有响应，那么添加超时之后也会报错，对应的这个ip就可以从代理ip池中删除。

retrying模块的使用

使用超时参数能够加快我们整体的请求速度，但是在正常的网页浏览过成功，如果发生速度很慢的情况，我们会做的选择是刷新页面，那么在代码中，我们是否也可以刷新请求呢？当然可以，retrying模块就可以帮助我们解决。

使用retrying模块提供的retry模块，通过装饰器的方式使用，让被装饰的函数反复执行
retry中可以传入参数stop_max_attempt_number,让函数报错后继续重新执行，达到最大执行次数的上限，如果每次都报错，整个函数报错，如果中间有一个成功，程序继续往后执行。
程序示例：

import requests
from retrying import retry


#  如果函数连续调用三次都报错，才会报错,如果三次之中有一次成功，就成功
@retry(stop_max_attempt_number=3)
def get_response(url):
    response = requests.get(url, timeout=2)
    return response
s = get_response("https://www.baidu.com")
print(s.content.decode())

小练习：retrying和requests的简单封装
实现一个发送请求的函数，每次爬虫中直接调用该函数即可实现发送请求，在其中
使用timeout实现超时报错，使用retrying模块实现重试

import requests
from retrying import retry


#最大重试3次，3次全部报错，才会报错
@retry(stop_max_attempt_number=3) 
def _parse_url(url)
    #超时的时候回报错并重试
    response = requests.get(url,timeout=3) 
    #状态码不是200，也会报错并重试
    assert response.status_code == 200
    return response


def parse_url(url)
    try: #进行异常捕获
        response = _parse_url(url)
    except Exception as e:
        print(e)
        #报错返回None
        response = None
    return response

冰履踏青云

关注

19
点赞
踩
87

收藏

觉得还不错? 一键收藏
打赏
1
评论
requests模块的使用详解

文章目录为什么要重点学习requests模块，而不是urllibrequests模块发送简单的get请求、获取响应使用requests保存图片发送带header的请求url 带参数的两种请求方式使用requests发送POST请求代理ip的使用爬虫中使用cookie为什么要重点学习requests模块，而不是urllibrequests的底层实现就是urllibrequests在python2 和python3中通用，方法完全一样requests简单易用Requests能够自动帮助我们解压(gz
复制链接

扫一扫