文章目录
TF-IDF(Term Frequency-Inverse Document Frequency),词频-逆文件概率,一种用于资讯检索与资讯探寻的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个文件语料库中一份文件的重要程度。
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
上述引用总结就是, **一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。**这也就是TF-IDF的含义。
**TF(Term Frequency, 词频)**表示词条在文本中出现的频率
T F i , j =