搜索引擎中的关键是信息检索中的匹配与搜索算法。下面介绍在信息检索领域比较经典的匹配算法:
- lnverted lndex and Boolean Retrieval(倒排索引与布尔检索)
正向索引是基于文档与词语的映射关系
但是,我们更希望建立基于词语到文档的映射关系,这就是倒排索引。
- 按照索引收集文档
- 标记单词,将每个文档转换为一个单词列表
- 进行语言预处理,生成规范化标记列表,其中索引项是:
- 通过创建倒排索引来索引每个术语出现的文档
-
Rank Retrieval 排名检索(tf-idf,BM25)
计算文本相似度排序
TF-IDF常用TF-IDF来计算权重,公式为:
T F − I D F ( t , d ) = T F ( t , d ) × I D F ( t ) TF-IDF(t,d)=TF(t,d)×IDF(t)