针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(二) —— 基于TF-IDF的特征提取

本文探讨了如何利用词频TF和逆文档频率IDF相结合的TF-IDF算法,降低常用无意义词汇的影响,以更精确地评估信息密集词在新冠肺炎微博热搜话题中的权重。通过实例展示了如何在R语言tidytext包中实现这一过程。
摘要由CSDN通过智能技术生成

       在对一段文本进行分词之后,有的词出现的次数会比较多,因此往往对其出现的频次进行统计,作为该词重要程度的度量。基于这个思想,词频(Term Frequency,TF)被广泛应用于基本的文本数据挖掘。在实际应用中,分词过后经常出现的词包含一些常用而又不带有信息量的词,例如中文里面的“的”“了”“呢”,英文中的“the”“it”“is”。

       为了在评估的时候降低这种词的重要性比重,产生了逆文档频率(Inverse Document Frequency,IDF)这一概 念。它的计算公式为:

IDF_{term} = ln\frac{N}{df_{term}}

      其中,N表示语料库中文档的总数,df_{term}表示语料库中出现了 term这个词的文档数量。可以看出,如果一个词在多个文档中都出现 df_{term}会上升,那么这个term的IDF就会下降。而我们常提到的TF-IDF 的计算公式为:

 

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值