Python 爬虫编码问题

最新推荐文章于 2024-06-17 10:08:39 发布

@向上

最新推荐文章于 2024-06-17 10:08:39 发布

阅读量509

点赞数

分类专栏： Python 文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_49734406/article/details/128593668

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Python 爬虫编码问题

今天本来想写个小爬虫，在返回数据页面时发现全是乱码，尝试使用两种常用的解决编码问题的方式

response.encoding = 'utf-8'  # 根据网页编码进行更改
response.encoding = response.apparent_encoding

发现还是不行，于是尝试不带 headers 访问，结果不乱码了；问题出在 headers 头里
一条一条进行删除测试终于发现问题的源头

accept-encoding": “gzip, deflate, br”

就是这个东西
将这个东西进行删除或者注释，返回的数据就正常了

在这里插入图片描述
后来百度了一波，发现网上对这个东西解释

普通浏览器访问网页，之所以添加"Accept-Encoding" = “gzip,deflate,br”，那是因为，浏览器对于从服务器中返回的对应的gzip压缩的网页，会自动解压缩，所以，其request的时候，添加对应的头，表明自己接受压缩后的数据。
而在我们编写的代码中，如果也添加此头信息，结果就是，返回的压缩后的数据，没有解码，而将压缩后的数据当做普通的html文本来处理，当前显示出来的内容就是乱码了。

详细说明：https://www.cnblogs.com/RainLa/p/8057367.html