当scrapy遇见了gbk

本文探讨了在使用Scrapy框架遇到GBK编码网站时如何处理。建议通过修改默认解码方式来解决,并提供了针对性的代码实现,同时具备错误提示功能,便于定位问题。
摘要由CSDN通过智能技术生成

在这里插入图片描述

Traceback (most recent call last):
  File "e:\python\installation\lib\site-packages\scrapy\robotstxt.py", line 16, in decode_robotstxt
    robotstxt_body = robotstxt_body.decode('utf-8')
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 225: invalid continuation byte
{'title': '陈列师', 'location_name': '北京', 'money': None}

***注意:***scrapy默认的解码格式是"utf-8"的格式
在这里插入图片描述
那么,如果我们使用scrapy框架爬虫时遇见了"gbk"编码格式的网站应该怎么办?
我的选择和建议是直接修改
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值