目录
2.2 IDF(Inverse Document Frequency)
2.3 TF-IDF(Term Frequency-Inverse Document Frequency)
前言
最近在读一篇论文《Mining Quality Phrases from Massive Text Corpora》,其中涉及到了TF-IDF和随机森林算法(Random Forest),顾对两个算法进行巩固加深记忆,这篇文章主要是讲TF-IDF算法,行文过程中参考了几篇博文,做了如下总结。
一、TF-IDF的由来
把查询关键字(Query)和文档(Document)都转换成 “向量”,并且尝试用线性代数等数学工具来解决信息检索问题,这样的努力至少可以追溯到 20 世纪 70 年代。
1971 年,美国康奈尔大学教授杰拉德 · 索尔顿(Gerard Salton)发表了《SMART 检索系统:自动文档处理实验》(The SMART Retrieval System—Experiments in Automatic Document Processing)一文,文中首次提到了把查询关键字和文档都转换成 “向量”,并且给这些向量中的元素赋予不同的值。这篇论文中描述的 SMART 检索系统,特别是其中对 TF-IDF