python爬虫返回文本为乱码的解决方法

1、在网站爬取文章时,返回的结果为乱码,如下

2、出现这种情况是因为访问page_text.text时,Requests会使用其推测的文本编码。

查看网页返回的字符集类型:page_text.apparent_encoding

查看自动判断的字符集类型:page_text.encoding

 

 可以看到Requests推测的文本编码(ISO-8859-1)与源网页编码(utf-8)不一致

3、解决方法

(1)方法一:在page_text.text之前,指定page_text.encoding为源网页的编码格式

page_text.encoding = 'utf-8'

(2)方法二:通过page_text.apparent_encoding属性来指定,直接将其值赋给page_text.encoding

r.encoding = r.apparent_encoding

  • 6
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
当爬取网页内容时,有时可能会遇到码问题。下面是一些解决码问题的常见方法: 1. 确定网页编码:首先,需要确定网页的正确编码方式。可以查看网页的HTTP响应头中的Content-Type字段,或者通过网页源代码中的meta标签来获取。常见的编码方式有UTF-8、GBK、ISO-8859-1等。 2. 指定正确的编码方式:在使用Python爬虫时,可以通过指定正确的编码方式来解决码问题。例如,可以使用requests库发送网络请求时,通过设置`response.encoding`属性来指定编码方式,如`response.encoding = 'UTF-8'`。 3. 使用合适的解码方式:如果指定了正确的编码方式仍然无法解决码问题,可以尝试使用其他解码方式进行解码。可以使用Python的内置字符串方法`decode()`或者第三方库(如chardet)来进行解码。 4. 处理特殊字符:有时候,网页中可能包含一些特殊字符,如非法字符或HTML实体编码。可以使用第三方库(如html.parser)来对这些特殊字符进行处理,将它们转换为正常的文本。 5. 使用Unicode进行处理:如果以上方法仍然无法解决码问题,可以尝试将文本转换为Unicode编码,并进行适当的处理。可以使用Python的`encode()`和`decode()`方法来进行编码和解码。 需要注意的是,码问题的解决方法因具体情况而异,可能需要根据实际情况进行调试和尝试不同的解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值