安装
#linux
sudo pip3 install requests
#win
#管理员权限 -m
python -m pip install requests
get请求
发送 get 请求,获取响应
#地址
url = "http://www.baidu.com"
#响应对象
res = requests.get(url)
res.status_code #响应状态码
res.text #响应字符串
res.content #响应字节串
res.encoding #猜测的编码方式
res.url #返回实际数据的 地址
res.headers #响应头
#
#第一次请求,服务端一般会设置cookie
res.cookies #cookie 类字典对象 .items()
res.json() # 获取响应的json数据
服务端识别爬虫
1.通过 请求头headers 里的User-Agent
正常浏览器:
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36",
python爬虫:
"User-Agent":"python-requests/2.25.1"
发请求,先包装headers
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"}
res = requests.get(url,headers=headers)