2021-07-22

最新推荐文章于 2024-10-02 10:53:34 发布

Silly and happy

最新推荐文章于 2024-10-02 10:53:34 发布

阅读量119

点赞数 4

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_52965517/article/details/118993938

版权

Python网络爬虫与信息提取学习笔记

 Requests库主要解析方法

 **requests.request(method,url,kwargs)
Method：请求方式：GET HEAD POST PUT PATCH delete OPTIONS
**kwargs：控制访问参数，均为可选项（13个）
①params：字典或字节序列，作为参数增加到url中（对url进行修改）

kv ={'key1':'value1','key2':'value2'}
r=requests.request("GET","http://python123.io/ws",params=kv)
print(r.url)

#https://python123.io/ws?key1=value1&key2=value2#
②data：字典，字节序列或文件对象，作为request的内容向服务器提供或提交资源时使用

r=requests.request("POST","http://python123.io/ws",data=kv)
body="主体内容"
r=requests.request("POST","http://python123.io/ws",data=kv)

③json：JSON格式数据，作为request的内容向服务器提供或提交资源时使用

kv ={'key1':'value1'}
r=requests.request('POST','http://python123.io/ws',json=kv)

④headers：字典，HTTP定制头

hd={'user-agent':'Chrome/10'}
r=requests.request('POST','http://python123.io/ws',headers=hd)

⑤cookies：字典或CookieJar，request中的cookie
⑥auth：元祖，支持HTTP认证功能
⑦files：字典类型，传输文件

fs={'file':open('data.xis','rb')}
r=requests.request('POST','http://python123.io/ws',files=fs)

⑧timeout：设定超时时间，以秒为单位
r=requests.request(“GET”,‘http://www.baidu.com’,timeout=10)
⑨proxies：字典类型，设定访问代理服务器，可以增加登录认证（隐藏爬取地址）

pxs={'http':'http://user:pass@10.10.10.1:1234',
      'https':'https://10.10.10.1:1234'}
r=requests.request("GET",'http://www.baidu.com',proxies=pxs)

⑩allow_redirects：True/False,默认为True,重定向开关
11.stream：True/False,默认为True，获取内容立即下载开关
12.verify：True/False,默认为True，认证SSL证书开关
13.cert：本地SSL证书路径
 **requests.get(url,params=None,kwargs)
params: url中的额外参数，字典或字节流格式，可选
**kwargs：12个控制访问的参数（除params）
 **requests.head(url,kwargs)
**kwargs：13个控制访问的参数
 requests.post(url,data=None,json=None,**kwargs)( 11个控制访问的参数)
 requests.put(url,data=None,**kwargs)( 12个控制访问的参数)
 requests.patch(url,data=None,json=None,**kwargs)( 12个控制访问的参数)
 requests.delete (url,**kwargs)( 13个控制访问的参数)