这个系列的文章是一只试图通过产品角度出发去理解复杂庞大搜索引擎的汪写出来的,不足之处很多,欢迎广大技术、非技术同学阅读后指正错误,我们一起探讨共同进步。
本篇主要介绍搜索引擎的检索模型和搜索排序。就是利用某种检索模型从海量数据中挑选“好的”网页经过排序后生成最终结果推送给用户。搜索结果排序是是搜索引擎最核心的部分,决定了搜索引擎质量好坏。排序中最重要的两个因素是查询内容相关性和网页链接情况。
一、内容相关性
判断相关性依赖于搜索引擎使用的检索模型。下图是内容相似性计算框架,用户发出搜索请求,检索模型根据请求计算网页相关性返回检索结果,可以看出检索模型对内容相关性起着决定性作用。
1.1常用的检索模型
1.1.1 布尔模型(boolean model)