一、简介
TF-IDF,英文全名term frequency–inverse document frequency。TF,Term Frequency,词频;IDF,Inverse Document Frequency,逆文本频率。
TF-IDF的核心思想是:如果某个词在一篇文章中出现的频率很高,但在其他文章中很少出现,即在语料库中出现频率不高,则认为这个词具有很好的类别区分能力,适合用来分类。因此TF-IDF实际上是tf乘以idf的值,即字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。因此,TF-IDF值比较大的词,即可作为该文章的关键词。
二、公式
TF = 某词w在文章中出现的次数 / 该文章中词数
IDF = log(语料库中文章总数 / 语料库中包含词w的文章总数 + 1)
TF-IDF = TF * IDF
现在已经可以清晰的看到TF-IDF和文章词频的正比关系,和在语料库中出现的频率的反比关系。
其中注意两点:
1. IDF的分母加1是为了防止语料库中不存在包含词w的文章,导致分母为0,出现值错误。
2. 为什么要对IDF取log?这一点还需进一步探索。