Python——requests库的高级用法
导入库,直接介绍方法:
import requests
- 上传文件
#上传文件,用到的参数 files
url = ''
files = {'file':'文件的路径'} #或 files = {'file':open('文件名','打开方式')}
r = requests.get(url,files = files)
print(r.text)
- Cookies获取和设置
#Cookies
url = 'https://www.baidu.com'
r = requests.get(url)
print(r.cookies)
#输出 <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
#可以看到是 RequestsCookieJar 类型
#使用items()方法对 Cookies 进行遍历
for key,value in r.cookies.items():
print(key + '=' + value)
#输出 BDORZ=27315
#也可以用自己设置的Cookies通过替换headers来替换
headers = {'Cookie':''}
r = requests.get(url,headers = headers)
#或者更直接点,用 cookies 参数来设置 cookies
cookies = ''
r = requests.get(url,cookies =cookies)
- 会话维持 —— Sssion的用法(我感觉非常重要)
#会话维持
#即每次请求的时候不用自带 Cookies ,每次访问都用相同的 Cookies ,这就要用到 Session 对象
url = 'https://www.baidu.com'
#创建seesion对象
sessino = requests.Session()
#发起请求获取这次请求的Cookie
sessino.get(url) #执行完该行代码后,Cookies已经存在在该 session 中
#拿到 Cookies
cookies = sessino.cookies
#用已有 Cookies session 对象发起请求
r = sessino.get(url,cookies = cookies) #该URL可以为请求上一个URL时所触发的其它响应的URL,该 r 是一个 response 对象
- SSL证书验证
#SSl证书验证
#当发送HTTP请求的时候,它会检查SSL证书,可以使用 requests 的 verify 参数来控制是否检查次证书
r = requests.get(url,verify = False)
- 代理设置
#代理设置
#当大规模爬取同一网站的时候,请求非常频繁,网站可能弹出验证码,或者跳转到登陆界面,或者直接封了你的IP地址
#为了防止这种情况的发生,我们要设置代理,使用的参数为 proxies
#以下的代理时无效的
proxies = {
'http':'http://10.10.10.10.10',
'https':'https://11.11.11.11'
}
r = requests.get(url,proxies = proxies)
#requests还支持SOCKS协议代理
#网上查阅资料说该代理并不是很稳定,该协议为防火墙安全会话转换协议,为客户机/服务器应用程序能更方便安全的使用网络防火墙所提供的服务
#先下载这个库 pip install 'requests[socks]'
proxies = {
'http':'socks5://user:password@host:port',
'https':'socks5://user:password@host:port'
}
r = requests.get(url,proxies = proxies)
- 超时设置
#超时设置
#用到的参数 timeout
#用来防止请求超时,一直等待响应
r = requests.get(url,timeout = 3)
- 身份验证
#身份验证
#在访问网站时可能会遇到身份验证的问题,可以使用requests自带的身份验证功能
from requests.auth import HTTPBasicAuth
r = requests.get(url,auth = HTTPBasicAuth('username','password'))
#或
r = requests.get(url,auth = ('username','password'))
希望我分享的东西对大家有用😁