response.text和response.content的区别:
1、response.content:这个是直接从网络上抓取的数据。没有经过任何解码。所以是一个bytes类型。其实硬盘上和在网络上传输的字符串都是bytes类型。
2、response.text:这个是str的数据类型。是requests库将response.content进行解码的字符串。解码需要指定一个编码方式,requests会根据自己的猜想来判断编码的方式。所以有时候可能会猜测错误,就会导致解码产生乱码。这时候就应该使用response.content.decode(‘utf-8’)进行手动解码。
requests发送POST请求
1.最基本的POST请求可以使用post方去:
response = request.post(‘http://www.baidu.com’,data=data)
如果返回的是json数据。那么可以调用request.json()来将json字符串转换为字典或者列表。
2传入data数据
这时候就不再使用URL恩code进行编码了,
import requests
url = "http://xxx.xxx.com"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
}
data = {
'first':'true',
'pn':1,
'kd':'python'
}
resp = requests.post(url,headers=headers,data = data)
***#如果是json数据,直接可以调用json方法***
print(resp.json())
requests使用代理
在请求方法中,传递‘proxies’参数就可以了。`
session:
之前使用urllib库,是可以使用opener发送多个请求,多个请求之间是可以共享cookie的。那么如果使用requests,也要达到共享cookie的目的,那么可以使用requests库给我们提供的session对象。
注意,这里的session不是web开发中的那个session,这个地方只是一个会话的地方而已。
import requests
url = "http://www.renren.com/PLogin.do"
data = {'email':'18616978964',
'password':'Xy19950621'}
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4098.3 Safari/537.36'
}
session = requests.session()
session.post(url,data=data,headers=headers)
response = session.get('http://www.renren.com/880151247/profile')
with open('renren.html','w',encoding='utf-8')as fp:
fp.write(response.text)
处理不信任的SSL证书:
对于那些已经被信任的SSL证书的网站,比如http://baidu.com/,那么使用requests直接就可以正常的返回响应。示例代码:
resp = requests.get('http://www.12306.cn/mormhweb/,'verify = False)
print(resp.content.decode(‘utf-8’))
如果访问的网站是不被信任的网站,要在后面加**'verify = False‘’**