学习爬虫第二天
1urllib.request模块
方法
//需要添加cookie和data或者headers时候
//需要先收集一个响应对象】
//urllib.request.Request(url,关键字参数); ///因为urlopen()不支持重构
1 urllib.request.urlopen(网址(需要添加cookie和data或者headers时候需要放一个响应对象))
2 response.read() ------>返回一个字节流
2 response.read().decode(‘utf-8’) ------>返回一个字符串
响应对象的方法
response.read() —>读取服务器响应的内容
response.getcode—>返回HTTP的响应码
response.geturl---->返回实际数据的URL(防止重定向)
2urllinb.parse模块
urlencode(字典)-------->返回 键=值(十六进制)&下一个键=值(十六进制)
quote(字符串) (这个⾥⾯的参数是个字符串)–>把字符串转换为十六进制返回
3requests
1 下载 pip install requests
2 常用方法 requests.get()
3 响应对象response的方法
response.text 返回unicode格式的数据(str)
response.content 返回字节流数据[(二进制)
response.content.decode(‘utf-8’) 手动进行解码
response.url 返回url
response.encoding = ‘编码’ 编码的方式
4 发送post请求
就是把form data里面的数据弄成一个字典 放在
url = '网址'
# formdata 里面的数据
data = {
'i': 'ss',
'from': 'AUTO',
'to': 'AUTO'}
requests.post(url,data=data)
5 设置代理ip 就是更改请求ip地址防止ip被封
使⽤requests添加代理只需要在请求⽅法中(get/post)传递proxies参数就
可以了
6 cookie 和ip一样 添加参数就可以
7 SSL证书不信任网站
res = requests.get(url, verify=False)
verify=False 的意思是跳过ssl认证