Vector space model 是一个常用的信息检索算法, 通过算query 和 document 的相似度对documents 进行排序,并把展示给用户排在前面的documents,以完成检索。
- Term weighting
对于简单的二进制加权,我们只使用1和0来表示某个术语是否包含在文档中。
但是通过术语权重,我们可以知道术语在描述文档内容时的重要性。
2. TF-IDF metric
A frequently used metric is TF-IDF,
TF (Term Frequency):
- 描述一个单词在文档中出现的次数
- 在文档中,这个术语更常见—>高权重
- 每个术语对于每个文档都有一个单独的术语频率。
IDF: Inverse Document Frequency
- 描述文档集合中包含单词的文档数量。
- 在一个文档集合中,不太常见的术语——> High weight
- 每个 term 在整个文档集合中只有一个逆文档频率
3 计算:
- 计算公式
公式:a.tf
freqi,j 是该term i在文件 j中出现的次数,maxfreq是文件j 中terms出现的最大频率
b.idf
N指文件总数,ni指 term i 在文档集中的几个文档出现过
c. tf-idf
d 相似度计算(向量夹角)
cos值越大,相似度越高
2. 计算步骤
- 计算集合C中所有项的idf值
- 对于C中的每个term,计算它对于每个文档集合的tf值。
- 将tf值乘以每个term的idf值,得到每个term的文档矩阵。
- 计算query的tf-idf向量 *这里注意:查询词的idf是文档集合中计算出的词的idf。
- 计算相似度,给文档排序
TF-IDF weighting scheme的优缺点
优点
- 它为搜索者提供了一个排序的相关文档列表,其中最相关的文档位于列表的顶部。
- 它可以提高检索性能。
- 即使文档只包含query的一部分,也可以检索到。
缺点
- 它基于这样的假设:term是独立的,而这有时会降低性能。