针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(二) —— 基于TF-IDF的特征提取

最新推荐文章于 2024-01-31 15:57:22 发布

快乐星黛露

最新推荐文章于 2024-01-31 15:57:22 发布

阅读量1.3k

点赞数 3

分类专栏： R语言文本数据分析文章标签： r语言开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44923423/article/details/121281109

版权

本文探讨了如何利用词频TF和逆文档频率IDF相结合的TF-IDF算法，降低常用无意义词汇的影响，以更精确地评估信息密集词在新冠肺炎微博热搜话题中的权重。通过实例展示了如何在R语言tidytext包中实现这一过程。

摘要由CSDN通过智能技术生成

在对一段文本进行分词之后，有的词出现的次数会比较多，因此往往对其出现的频次进行统计，作为该词重要程度的度量。基于这个思想，词频（Term Frequency，TF）被广泛应用于基本的文本数据挖掘。在实际应用中，分词过后经常出现的词包含一些常用而又不带有信息量的词，例如中文里面的“的”“了”“呢”，英文中的“the”“it”“is”。

为了在评估的时候降低这种词的重要性比重，产生了逆文档频率（Inverse Document Frequency，IDF）这一概念。它的计算公式为：

$IDF_{term} = ln\frac{N}{df_{term}}$

其中，N表示语料库中文档的总数， $df_{term}$ 表示语料库中出现了 term这个词的文档数量。可以看出，如果一个词在多个文档中都出现 $df_{term}$ 会上升，那么这个term的IDF就会下降。而我们常提到的TF-IDF 的计算公式为：

最低0.47元/天解锁文章

快乐星黛露

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(二) —— 基于TF-IDF的特征提取

在对一段文本进行分词之后，有的词出现的次数会比较多，因此往往对其出现的频次进行统计，作为该词重要程度的度量。基于这个思想，词频（Term Frequency，TF）被广泛应用于基本的文本数据挖掘。在实际应用中，分词过后经常出现的词包含一些常用而又不带有信息量的词，例如中文里面的“的”“了”“呢”，英文中的“the”“it”“is”。为了在评估的时候降低这种词的重要性比重，产生了逆文档频率（Inverse Document Frequency，IDF）这一概念。它的计算公式为...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。