请求方式之二----requests模块

最新推荐文章于 2024-08-03 19:27:22 发布

不会学习的小菜鸡

最新推荐文章于 2024-08-03 19:27:22 发布

阅读量124

点赞数

分类专栏： Python爬虫学习文章标签： python

本文链接：https://blog.csdn.net/weixin_47024013/article/details/118888929

版权

Python爬虫学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

requests是相对于urllib跟简单的请求库，完成请求的步骤简单，能加快开发效率

安装模块

pip install requests

GET请求

使用 .get() 发送get请求，同理，也有 .post() ，.put()，.delete()，.head()，.options()这些请求类型

import requests

url = "http://www.baidu.com"
response = requests.get(url)
print(response.content.decode('utf-8'))

使用headers添加请求头

我们在使用urllib是添加请求头需要去构建request对象，但在这里，我们不需要去构建，直接传递一个headers参数就ok了，cookie也不需要使用cookiejar了，是不是感觉很方便？

url = "https://www.baidu.com/s?"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36",
    "cookie": "cookie"
}
response = requests.get(url, headers)
print(response.content.decode('utf8'))

使用params传递URL参数

当我们需要为URL的查询字符串(query string)传递某种数据时，我们就需要用键值对的方式放在URL跟一个问号后面。而get()函数有那么一个参数(params)让我们不需要自己去构建URL

观察百度时的url，查询参数键为wd

import requests

url = "https://www.baidu.com/s"
params = {
    "wd": "奥特曼"
}
response = requests.get(url=url, params=params)

响应内容的处理

函数text会自动帮你解码，但有时候出错

函数content会得到二进制数据，如果是视频，图片这些二进制文件就使用content就ok了，但如果是文本的话，就需要使用decode()解码

import requests

picture_url = 'https://img-home.csdnimg.cn/images/20210129020554.jpg'
url = 'https://www.csdn.net/'

response1 = requests.get(picture_url)
with open("1.jpg", "wb") as f:
    f.write(response1.content)

response2 = requests.get(url)
print(response2.encoding) # 响应对象自动识别的编码属性，可更改
print(response2.text)

POST请求

post请求需要传递的数据也是用一个字典包裹的，但不需要编码

import requests 
def spider(url): 
    data = { "表单": "数据", "键": "值" } 
    response = requests.post(url, data=data) 
    print(response.text) 
if __name__ == "__main__": url = "http://httpbin.org/post" 			spider(url)

Session回话维持

这个就跟http.cookiejar的功能相似，也可以自动管理cookie，保持当前的会话。比如我们在模拟登录后，登录的信息会保存在cookie里，如果我们使用session的方式，我们下一次访问另一个网页时会默认使用该cookie，这样我们就不需要自己手动去使用cookie。

import requests 

session = requests.Session()
session.get("http://httpbin.org/cookies/set/sessioncookie/123456789") 
response = session.get("http://httpbin.org/cookies") print(response.text)

代理

使用proxies参数来传递代理，同理，代理也是要用字典包裹，键是请求的协议（http/https），值有两部分，地址+端口

import requests 
proxies = { 
    "http": "http://10.10.1.10:3128", 
    "https": "http://10.10.1.10:1080", 
} 
headers = { 
    "User-agent": "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50" 
          } 
response = requests.get("http://python.org", headers=headers, proxies=proxies)

其他

状态码(status_code)

import requests

res = request.get("https://www.baidu.com")
print(res.status_code)

超时设置（timeout）

import requests

response = requests.get("http://www.baidu.com", timeout=0.5s)
print(response)

不会学习的小菜鸡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
请求方式之二----requests模块

requests是相对于urllib跟简单的请求库，完成请求的步骤简单，能加快开发效率安装模块 pip install requestsGET请求使用**.get()发送get请求，同理，也有.post()**，.put()，.delete()，.head()，.options()这些请求类型import requestsurl = "http://www.baidu.com"response = requests.get(url)print(response.content.
复制链接

扫一扫

专栏目录