英文名
term frequency–inverse document frequency
举个栗子来计算
现在有一篇文章,里面 100个字儿,其中“派大星”出现了5次,则“派大星”这个词在这篇文章中的TF(词频)值就是5/100=0.05
(TF=0.05)
接下来是逆向文件频率 (IDF) 。如果有10份儿这样的文章里面包含了“派大星”,而文章的总份数是10000,则IDF的值是lg(10000/10)= 3
(IDF=3)
俩值一相乘就是 TF x IDF = 0.05 x 3 = 0.15
TF-IDF的值越大,说明这个词越重要。
但是像the,this,“的”这样的词,哪儿都有,不想让他们重要。它们的量上去了,其IDF的值就会变小,总的TF-IDF值就会变小,于是就不重要了。
公式长这样
TF-IDF存在的问题是没有把上下文文字背后的语义关联考虑进去
======== 欢迎大家指正 ========