使用goose3进行文本提取时报错：AttributeError: ‘list‘ object has no attribute ‘decode‘

年少时的宇航梦

于 2024-01-13 13:01:52 发布

阅读量443

点赞数 5

文章标签： python scrapy 网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50760703/article/details/135568541

版权

最近使用scrapy做数据采集，需要借助goose进行文本内容提取，提取数据部分的代码如下：

def parse(self, response, **kwargs):
    g = Goose()
    article = g.extract(raw_html=response.text)
    item['title'] = article.title
    item['author'] = ','.join(article.authors)
    item['publish_time'] = article.publish_datetime_utc
    item['content'] = article.cleaned_text

运行后出现如下错误：

AttributeError: 'list' object has no attribute 'decode'

在网上找了很久没有找到对应的解决办法。经过摸索，我得到如下两个解决方案：

1. 将传入html源码改为传入请求url

article = g.extract(url=response.url)

通过上述方式虽然能够解决问题，但再次请求会消耗更多资源，于是我找到了第二种方法。

2. 升级goose3

在终端中执行如下命令：

pip install --upgrade goose3

完成后即可正常运行。

年少时的宇航梦

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
使用goose3进行文本提取时报错：AttributeError: ‘list‘ object has no attribute ‘decode‘

运行后出现如下错误：在网上找了很久没有找到对应的解决办法。
复制链接

扫一扫

年少时的宇航梦 CSDN认证博客专家 CSDN认证企业博客

码龄4年

6: 原创

106万+: 周排名

12万+: 总排名

6万+: 访问

: 等级

205: 积分

33: 粉丝

117: 获赞

28: 评论

261: 收藏

私信

关注

热门文章

最新评论

vscode 报错：无法打开源文件“stdio.h“，但程序能正常运行的解决办法。
2301_81008712: 大佬tdm-gcc怎么弄
scrapy+adbapi异步写入，提高数据库写入效率
CSDN-Ada助手: 恭喜作者成功发布第6篇博客！通过scrapy+adbapi异步写入提高数据库写入效率，这篇文章内容非常实用，对读者们一定会有很大帮助。希望作者能继续保持创作的热情，为大家带来更多有价值的内容。下一步建议可以尝试结合其他技术或案例，拓展文章的深度，让读者们有更多收获。期待您的下一篇作品！
使用goose3进行文本提取时报错：AttributeError: ‘list‘ object has no attribute ‘decode‘
CSDN-Ada助手: 恭喜您写了第5篇博客！标题中提到的问题似乎是在使用goose3进行文本提取时遇到的错误。这种错误通常是由于代码中尝试对一个列表对象进行解码操作，而列表对象并不具备decode属性所致。在处理文本提取时，确保您传入的参数是正确的，可能需要检查一下您的代码逻辑。不过，我们都知道编程中遇到问题是很正常的，只要您能坚持并不断学习，相信您一定可以克服这些小困难。希望您继续保持创作的热情，下一步的创作建议是尝试分享一些实际应用案例或者深入分析一些技术细节，这样可以让读者更加深入了解和应用相关知识。期待您的下一篇博客！
vscode 报错：无法打开源文件“stdio.h“，但程序能正常运行的解决办法。
人生滢家: 谢谢大神！！！
vscode 报错：无法打开源文件“stdio.h“，但程序能正常运行的解决办法。
cmh_12345: 为啥我的vscode输出不会换行

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。