Python 爬虫编码问题

Python 爬虫编码问题

今天本来想写个小爬虫,在返回数据页面时发现全是乱码,尝试使用两种常用的解决编码问题的方式

response.encoding = 'utf-8'  # 根据网页编码进行更改
response.encoding = response.apparent_encoding

发现还是不行,于是尝试不带 headers 访问,结果不乱码了;问题出在 headers 头里
一条一条进行删除测试 终于发现问题的源头

accept-encoding": “gzip, deflate, br”

就是这个东西
将这个东西进行删除或者注释,返回的数据就正常了

在这里插入图片描述
后来百度了一波,发现网上对这个东西解释

普通浏览器访问网页,之所以添加"Accept-Encoding" = “gzip,deflate,br”,那是因为,浏览器对于从服务器中返回的对应的gzip压缩的网页,会自动解压缩,所以,其request的时候,添加对应的头,表明自己接受压缩后的数据。
而在我们编写的代码中,如果也添加此头信息,结果就是,返回的压缩后的数据,没有解码,而将压缩后的数据当做普通的html文本来处理,当前显示出来的内容就是乱码了。

详细说明:https://www.cnblogs.com/RainLa/p/8057367.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值