爬虫第二天学习工具

学习爬虫第二天

1urllib.request模块
方法
//需要添加cookie和data或者headers时候
//需要先收集一个响应对象】
//urllib.request.Request(url,关键字参数); ///因为urlopen()不支持重构
1 urllib.request.urlopen(网址(需要添加cookie和data或者headers时候需要放一个响应对象))
2 response.read() ------>返回一个字节流
2 response.read().decode(‘utf-8’) ------>返回一个字符串
响应对象的方法
response.read() —>读取服务器响应的内容
response.getcode—>返回HTTP的响应码
response.geturl---->返回实际数据的URL(防止重定向)
2urllinb.parse模块
urlencode(字典)-------->返回 键=值(十六进制)&下一个键=值(十六进制)
quote(字符串) (这个⾥⾯的参数是个字符串)–>把字符串转换为十六进制返回
3requests
1 下载 pip install requests
2 常用方法 requests.get()
3 响应对象response的方法
response.text 返回unicode格式的数据(str)
response.content 返回字节流数据[(二进制)
response.content.decode(‘utf-8’) 手动进行解码
response.url 返回url
response.encoding = ‘编码’ 编码的方式
4 发送post请求
就是把form data里面的数据弄成一个字典 放在

url = '网址'
# formdata  里面的数据
data = {
    'i': 'ss',
    'from': 'AUTO',
    'to': 'AUTO'}
requests.post(url,data=data)

5 设置代理ip 就是更改请求ip地址防止ip被封
使⽤requests添加代理只需要在请求⽅法中(get/post)传递proxies参数就
可以了
6 cookie 和ip一样 添加参数就可以
7 SSL证书不信任网站
res = requests.get(url, verify=False)
verify=False 的意思是跳过ssl认证

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值