爬虫 requests User-Agent池 FakeUserAgent URL传参

1.robots协议

        一般协议,不具有强制性

        域名/robots.txt 查看

2.requests模块

        是个第三方模块,需要安装 pip install requests -i https://pypi.doubanio.com/simple

        利用requests模块发送网络请求  接收请求数据

3. 响应体操作

一般用content得到二进制数据,再decode,text能直接得到字符串数据,但是是自动解码,不一定准确

response.text 响应体 str类型
respones.content 响应体 bytes类型
response.status_code 响应状态码
response.request.headers 响应对应的请求头
response.headers 响应头
response.request._cookies 响应对应请求的cookie
response.cookies 响应的cookie(经过了4.set-cookie动作)

4.with open as 语句操作文件读写

 (1)如果得到的字符串数据,用w模式打开,需要设置编码格式encoding='utf-8'(具体编码要看网页所用的编码,在网页检查-elements-head标签下可以看到 

with open('baidu.html','w',encoding="utf-8") as f:
#     f.write(response_.text)
(2)如果以二进制数据写入的话,用wb模式,就不需要设置编码了  (比如图片,音频,视频等)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值