安装requests
pip install requests
中文文档连接:[http://docs.python-requests.org/zh_CN/latest/index.htm]
1.基本的get请求
import requests
r = requests.get("http://www.baidu.com/get")
print(type(r))
print(r.text)
2.带参数的get请求
import requests
import json
data = {'name': 'genmey', 'age': 24}
r = requests.get("http://httpbin.org/get", params=data)
# 字符串形式
print(type(r.text))
print(r.text)
# 获取二进制数据
print(r.content)
# content 是没有经过解码的,返回的是二进制数据,text是解码过的,但是是requests自己判断来进行解码的,所以有时候
# 会出现乱码的现象,所以还是使用 r.content.decode('utf-8')比较好
print(type(r.json())) # 字典形式
print(r.json()) # 解析json
# 返回结果和上面一样
print(json.loads(r.text))
3.添加headers
有些网站访问的时候必须带有请求头,不然会报错 400 Bad Request
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}
r = requests.get("https://www.zhihu.com/explore",headers=headers)
r = requests.get("https://www.zhihu.com/explore")
print(r.text)
4.关于相依的一些基本信息
import requests
r = requests.get('http://www.jianshu.com')
# 响应状态码 <class 'int'> 403
print(type(r.status_code), r.status_code)
# 响应cookies信息 <class 'requests.cookies.RequestsCookieJar'> <RequestsCookieJar[]>
print(type(r.cookies), r.cookies)
# 响应头
print(type(r.headers), r.headers)
# 响应url <class 'str'> https://www.jianshu.com/
print(type(r.url), r.url)
# 响应 list类型 <class 'list'> [<Response [301]>]
print(type(r.history), r.history)
5.文件上传,文件上传为post方法的一部分,使用files的参数.
import requests
files = {'file': open('./file.txt', 'rb')}
r = requests.get("http://httpbin.org/post", files=files)
print(r.text)
6.获取cookies
import requests
url = "http://www.renren.com/PLogin.do"
data = {"email":"970138074@qq.com",'password':"pythonspider"}
r = requests.post(url,data=data)
# 获取cookies值
print(r.cookies)
# 以字典形式返回,{'JSESSIONID': 'abcEDBDl-OE5u9QskvLww'}
print(r.cookies.get_dict())
7.会话维持,模拟登陆session
“””
获取cookies为较为重要的方法,通过获取cookies,可以最仿真的模拟request headers,从而绕过最基本的反爬机制
但通过requests获取cookies需要维持当前的session,即会话
如通过如下方式请求当前页面两次,两次requests是独立的请求,
相当于一次浏览器请求后再用新的浏览器请求,第一次的请求cookie无效化了。
故此时需要使用session的方式来完成模拟同一浏览器访问两次的操作,并且不需要处理cookies的问题。可用于模拟登录页面。”“”
import requests
requests.get('http://httpbin.org/cookies/set/number/123456789')
r = requests.get('http://httpbin.org/cookies')
# 此时返回的是cookies是空的,因为两次请求是相互独立的
print(r.text)
import requests
s = requests.session()
s.get('http://httpbin.org/cookies/set/number/123456789')
r = s.get('http://httpbin.org/cookies')
# 此时获得的数据是
# {
# "cookies": {
# "number": "123456789"
# }
# }
print(r.text)
8.对于那些已经被信任的SSL整数的网站,比如https://www.baidu.com/,那么使用requests直接就可以正常的返回响应。如果没有被信任就会报错,比如,
import requests
r = requests.get('https://www.12306.cn')
# 此时返回的报错requests.exceptions.SSLError
print(r.st)
解决方案: 对于需要证书验证的网页,将get方法里的verify参数调为False即可,或使用cert参数,如果你在请求的时候没有报错,可能现在网站的证书已经被认证了.
import requests
from requests.packages import *
r = requests.get('https://www.12306.cn', verify=False)
print(r.status_code)
import requests
r = requests.get('https://www.12306.cn', cert=('/path/server.crt', '/path/key'))
print(r.status_code)
9.超时设置和基本异常处理
有时爬虫过程会出现网站相应很久的情况,影响心情。 故使用超时设置也是很好的方法,若超时则停止并报异常,或使用try语句捕捉错误。
import requests
from requests.exceptions import ConnectTimeout
try:
r = requests.get("http://httpbin.org/get",timeout=0.1)
print(r.status_code)
except ConnectTimeout as e:
print("timeout") # 返回timeout
10.代理设置,使用requests添加代理也非常简单,只要在请求的方法中(比如get或者post)传递proxies参数就可以了,就是经过第三方来处理一些事情,代理有很多作用,这里只是简单的介绍一下.
import requests
url = "http://httpbin.org/ip"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
# 使用代理,可以从网上找一些免费代理,肯定没有收钱的要好
proxy = {
'http': '115.154.43.242:8123'
}
resp = requests.get(url, headers=headers, proxies=proxy)
# 将获取的内容写到一个文件中去,方便查看
with open('xx.html', 'w', encoding='utf-8') as fp:
fp.write(resp.text)
这里只是简单的基本操作,想要学习更多,还是要靠自己去查阅资料来学习.