TF-IDF是什么学习笔记(基础版)

TF—IDF是什么

TF-IDF的算法,目的是计算词的权重,由两部分组成,一部分是TF(词项频率),另一部分是IDF(逆向文档频率)。通俗的讲,就是,TF-IDF = TF * IDF。也就是说,我们在考虑词的权重的时候,不再只考虑这个词在文档中出现多少次。

TF

TF考虑了词项的类内代表性,其实,我也不懂什么叫类内代表性,总之,它就是像数数一样,看一个词在一个句子中出现多少次,然后计算频率。但是这个指标并不能完全反映文本类别的区分度,文档高频词极有可能在其他文档中也重复出现,例如“的”、“一”等。Term Frequency中文翻译就是词频。

举个例子:
这个词语在此文本出现的频率 除以 此文本词语的总个数 即是词频。如“你们”在一个文本出现10次,此文本一共100个词语,那么“你们”的词频就是10/100=0.1。

IDF

考虑到TF的缺点之后,我们又引入了IDF,意思是逆向文档频率,考虑了词项的全局代表性,表示文档中总文档数目与文档中包含该词项数目的比值:
举个例子:
IDF的具体计算方式是总文本的数目除以包含该词语文件的数目再取对数,以达到给每个词语赋予不同权重的意义。我们一共有100个文本,其中10个中找到了我们想要的词语,那么我们的IDF值为log(100/10)= 1。

IDF值随着数字分母的变大而变小,也就是说当我们在总文本里找到越多的文本包含我们想要的词,这就证明这个词非常的普遍,并没有任何的指引性,导致我们的IDF值下降。极端的例子,如果说所有文件里都有我们想要查找的这个词语,那么分子分母相等再取对数,最后的结果为0,就代表在我们现有的文本或语料库里,这个词语没有任何特殊的意义和识别性。

最终我们的TF-IDF值就等于 TF值IDF值,例如词语“原子弹”的TF值是0.1,IDF值是2.8,那么它的TFIDF值为0.28。

如果我们有3个词语A、B、C,它们的TF-IDF值分别为0,28、0.53和0.77,那么我们加起来,这三个词语在文章中加起来的TF*IDF值就为1.58。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值