python 爬取网页时文本乱码解决办法

最新推荐文章于 2024-04-27 16:08:02 发布

不知名程序媛

最新推荐文章于 2024-04-27 16:08:02 发布

阅读量4.2k

点赞数 3

原文链接：https://www.cnblogs.com/c-aha/p/10116747.html

版权

爬取的网页不管是'gbk'解码还是'utf-8'解码，以下是通用的解决乱码方法

先转换成二进制格式，再进行编码

用requests获取网页时

import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/75.0.3770.100 Safari/537.36",
}

res = requests.get('http://www.eeo.com.cn/yaowen/',headers = headers)
response = bytes(res.text,res.encoding).decode('utf-8','ignore')
print(response)

用pyquery获取网页时

from pyquery import PyQuery as pq

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/75.0.3770.100 Safari/537.36",
}

res = pq('http://www.eeo.com.cn/yaowen/',headers = headers)
response = bytes(res.html(),res.encoding).decode('utf-8','ignore')
print(response)

二者区别仅在于获取网页内容时的函数是text还是html()，另外，文中要获取的网页解码方式是'utf-8'

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不知名程序媛

关注关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
python 爬取网页时文本乱码解决办法

爬取的网页不管是'gbk'解码还是'utf-8'解码，以下是通用的解决乱码方法先转换成二进制格式，再进行编码用requests获取网页时import requestsheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Geck...
复制链接

扫一扫