Python——requests库的高级用法

最新推荐文章于 2023-02-25 21:53:18 发布

onesalatree

最新推荐文章于 2023-02-25 21:53:18 发布

阅读量371

点赞数

分类专栏：爬虫实战实例+博文含爬虫心得（.py文件-单文件式爬虫）文章标签： python

本文链接：https://blog.csdn.net/zc666ying/article/details/104575833

版权

爬虫实战实例+博文含爬虫心得（.py文件-单文件式爬虫）专栏收录该内容

10 篇文章 2 订阅

订阅专栏

Python——requests库的高级用法

导入库，直接介绍方法：

import requests

上传文件

#上传文件，用到的参数  files
url = ''
files = {'file':'文件的路径'}   #或  files = {'file':open('文件名'，'打开方式')}
r = requests.get(url,files = files)
print(r.text)

Cookies获取和设置

#Cookies
url = 'https://www.baidu.com'
r = requests.get(url)
print(r.cookies)
#输出  <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
#可以看到是 RequestsCookieJar 类型

#使用items()方法对 Cookies 进行遍历
for key,value in r.cookies.items():
    print(key + '=' + value) 
#输出 BDORZ=27315

#也可以用自己设置的Cookies通过替换headers来替换
headers = {'Cookie':''}
r = requests.get(url,headers = headers)

#或者更直接点，用 cookies 参数来设置 cookies
cookies = ''
r = requests.get(url,cookies =cookies)

会话维持 —— Sssion的用法（我感觉非常重要）

#会话维持
#即每次请求的时候不用自带 Cookies ，每次访问都用相同的 Cookies ，这就要用到 Session 对象
url = 'https://www.baidu.com'
#创建seesion对象
sessino = requests.Session()
#发起请求获取这次请求的Cookie
sessino.get(url)   #执行完该行代码后，Cookies已经存在在该 session 中
#拿到 Cookies
cookies = sessino.cookies
#用已有 Cookies session 对象发起请求
r = sessino.get(url,cookies = cookies)   #该URL可以为请求上一个URL时所触发的其它响应的URL，该 r 是一个 response 对象

SSL证书验证

#SSl证书验证
#当发送HTTP请求的时候，它会检查SSL证书，可以使用 requests 的 verify 参数来控制是否检查次证书
r = requests.get(url,verify = False)

代理设置

#代理设置
#当大规模爬取同一网站的时候，请求非常频繁，网站可能弹出验证码，或者跳转到登陆界面，或者直接封了你的IP地址
#为了防止这种情况的发生，我们要设置代理，使用的参数为 proxies
#以下的代理时无效的
proxies = {
    'http':'http://10.10.10.10.10',
    'https':'https://11.11.11.11'
}
r = requests.get(url,proxies = proxies)
#requests还支持SOCKS协议代理
#网上查阅资料说该代理并不是很稳定，该协议为防火墙安全会话转换协议，为客户机/服务器应用程序能更方便安全的使用网络防火墙所提供的服务
#先下载这个库 pip install 'requests[socks]'
proxies = {
    'http':'socks5://user:password@host:port',
    'https':'socks5://user:password@host:port'
}
r = requests.get(url,proxies = proxies)

超时设置

#超时设置
#用到的参数 timeout
#用来防止请求超时，一直等待响应
r = requests.get(url,timeout = 3)

身份验证

#身份验证
#在访问网站时可能会遇到身份验证的问题，可以使用requests自带的身份验证功能
from requests.auth import HTTPBasicAuth
r = requests.get(url,auth = HTTPBasicAuth('username','password'))
#或
r = requests.get(url,auth = ('username','password'))

希望我分享的东西对大家有用😁

onesalatree

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python——requests库的高级用法

Python——requests库的高级用法导入库，直接介绍方法：import requests上传文件#上传文件，用到的参数 filesurl = ''files = {'file':'文件的路径'} #或 files = {'file':open('文件名'，'打开方式')}r = requests.get(url,files = files)print(r.tex...
复制链接

扫一扫

专栏目录