requests爬虫【中文乱码】的3种解决方法
requests爬虫【中文乱码】的3种解决方法
一、出现【中文乱码】的原因
使用requests库
时,选择使用的文本响应方法不合适,以至于使用【requests.text
】自动获取到的网页编码与实际网页的编码不一致,导致中文乱码。
由于习惯,使用requests库
时,常用【requests.text
】进行文本响应,
在这里请注意【requests.text
】与【requests.content
】最大的区别在于后者常用于图片和视频,且不会解码,直接以二进制形式返回。
四种文本响应方式,如下图
举例如下:
运行后出现中文乱码
二、3种处理【中文乱码】的方法
1.直接将requests.text
换成requests.content
2.让编码格式相等
3.指定编码格式为UTF8