当scrapy遇见了gbk

最新推荐文章于 2021-05-10 21:11:19 发布

yuhui_2000

最新推荐文章于 2021-05-10 21:11:19 发布

阅读量488

点赞数 1

分类专栏： python三千问文章标签： python

本文链接：https://blog.csdn.net/yuhui_2000/article/details/109000694

版权

本文探讨了在使用Scrapy框架遇到GBK编码网站时如何处理。建议通过修改默认解码方式来解决，并提供了针对性的代码实现，同时具备错误提示功能，便于定位问题。

摘要由CSDN通过智能技术生成

在这里插入图片描述

Traceback (most recent call last):
  File "e:\python\installation\lib\site-packages\scrapy\robotstxt.py", line 16, in decode_robotstxt
    robotstxt_body = robotstxt_body.decode('utf-8')
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 225: invalid continuation byte
{'title': '陈列师', 'location_name': '北京', 'money': None}

***注意：***scrapy默认的解码格式是"utf-8"的格式
在这里插入图片描述
那么，如果我们使用scrapy框架爬虫时遇见了"gbk"编码格式的网站应该怎么办？
我的选择和建议是直接修改