深入搜索引擎原理

阿里云云栖号

于 2019-05-15 14:00:28 发布

阅读量1.7k

点赞数 5

文章标签：阿里技术协会 GEO 搜索引擎

本文链接：https://blog.csdn.net/yunqiinsight/article/details/90232254

版权

之前几段工作经历都与搜索有关，现在也有业务在用搜索，对搜索引擎做一个原理性的分享，包括搜索的一系列核心数据结构和算法，尽量覆盖搜索引擎的核心原理，但不涉及数据挖掘、NLP等。文章有点长，多多指点~~

一、搜索引擎引题

这里有个概念需要提一下。信息检索 (Information Retrieval 简称 IR) 和搜索 (Search) 是有区别的，信息检索是一门学科，研究信息的获取、表示、存储、组织和访问，而搜索只是信息检索的一个分支，其他的如问答系统、信息抽取、信息过滤也可以是信息检索。

本文要讲的搜索引擎，是通常意义上的全文搜索引擎、垂直搜索引擎的普遍原理，比如 Google、Baidu，天猫搜索商品、口碑搜索美食、飞猪搜索酒店等。

Lucene 是非常出名且高效的全文检索工具包，ES 和 Solr 底层都是使用的 Lucene，本文的大部分原理和算法都会以 Lucene 来举例介绍。

看一个实际的例子：如何从一个亿级数据的商品表里，寻找名字含“秋裤”的商品。

select * from item where name like '%秋裤%'

如上，大家第一能想到的实现是用 like，但这无法使用上索引，会在大量数据集上做一次遍历操作，查询会非常的慢。有没有更简单的方法呢，可能会说能不能加个秋裤的分类或者标签，很好，那如果新增一个商品品类怎么办呢？要加无数个分类和标签吗？如何能更简单高效的处理全文检索呢？

答案是搜索，会事先 build 一个倒排索引，通过词法语法分析、分词、构建词典、构建倒排表、压缩优化等操作构建一个索引，查询时通过词典能快速拿到结果。这既能解决全文检索的问题，又能解决了SQL查询速度慢的问题。

那么，淘宝是如何在1毫秒从上亿个商品找到上千种秋裤的呢，谷歌如何在1毫秒从万亿个网页中找寻到与你关键字匹配的几十万个网页，如此大的数据量是怎么做到毫秒返回的。

分词就是对一段文本，通过规则或者算法分出多个词，每个词作为搜索的最细粒度一个个单字或者单词。只有分词后有这个词，搜索才能搜到，分词的正确性非常重要。分词粒度太大，搜索召回率就会偏低，分词粒度太小，准确率就会降低。如何恰到好处的分词，是搜索引擎需要做的第一步。

分词正确性
- “他说的确实在理”，这句话如何分词？
- “他-说-的确-实在-理” [错误语义]
- “他-说-的-确实-在理” [正确语义]
分词的粒度
- “中华人民共和国宪法”，这句话如何分词？
- “中华人民共和国-宪法”，[搜索中华、共和国无结果]
- “中华-人民-共和国-宪法”，[搜索共和无结果]
- “中-华-人-民-共-和-国-宪-法”，[搜索其中任意字都有结果]