Python爬虫:Windows系统下用pyquery库解析含有中文的本地HTML文件报UnicodeDecodeError的解决方法

由于Windows系统默认GBK编码,用pyquery解析本地html文件,如果文件中有中文,会报错:

UnicodeDecodeError: 'gbk' codec can't decode byte 0xa3 in position 12: illegal multibyte sequence

解决方法:

在python3中用open()方法打开文件时,windows系统会默认使用GBK编码,所以open()方法需要传入参数'encoding=utf-8'。相关代码如下:

from pyquery import PyQuery as pq


with open("filepath", encoding="utf-8") as f:
       content = f.read()
doc = pq(content)

这样后续的操作就没问题了。

结论:以后在Windows环境下读文件,都可以采用这种方法,避免再次出现UnicodeDecodeError。

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值