jieba分词的停用词问题

最新推荐文章于 2024-07-25 19:25:13 发布

小茶子

最新推荐文章于 2024-07-25 19:25:13 发布

阅读量6.8k

点赞数 8

分类专栏： PYTHON 文章标签： jieba 停用词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/younger821/article/details/104041274

版权

PYTHON 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

去掉停用词一般要自己写个去除的函数(def....)，一般的思想是先分好词，然后看看分的词在不在停用词表中，在就remove，最后呈现的结果就是去掉停用词的分词结果。

后来找到一个jieba.analyse.set_stop_words(filename)，以为可以直接设置一下停用词文件分词时就自动给我去除了，没想到分词的结果根本没有任何改变！

找了半天资料，又看了下jieba包里analyse文件夹里的各py文件，发现这个是为了作关键词提取用的，也就是：

用jieba.analyse.extract_tags时，设置jieba.analyse.set_stop_words才有用！

用jieba.lcut时，设置jieba.analyse.set_stop_words根本没有用！

比较了一下二者的最后结果，关键词提取的结果是简洁明了而且囊括了不少关键词，但是还是有些词没有包括进来，所以，如果想去除停用词+较为全面的分词结果，还是老老实实的自己写方法吧！

最后再附上比较全的一个停用词表：

https://github.com/goto456/stopwords

关注

8
点赞
踩
20

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。