【直播全文记录】基于Xapian的垂直搜索引擎的构建分析

最新推荐文章于 2020-12-11 09:44:16 发布

高可用架构

最新推荐文章于 2020-12-11 09:44:16 发布

阅读量262

点赞数

此文根据【QCon高可用架构群】分享内容，由群内【编辑组】志愿整理，转发请注明出处。

王晓伟：2009年创办麦图科技，专注于电商行业的垂直搜索, 受到多家天使、Pre-A投资机构的关注。有10+年互联网、游戏、内核安全从业经验。历任软件工程师、高级软件工程师、技术经理和总监。目前主要从事手机游戏发行平台的构建，推进公司DevOps的培养和运维自动化的实施。

以下为王晓伟老师最近在微信群直播分享的全文记录。

垂直搜索的应用场景

场景1：基于拼音搜索联系人，可以从开始处搜索，也可以从中间搜索。

0?wx_fmt=jpeg

场景2：基于关键字搜索常见政府网站，存在的问题参见截图说明。

0?wx_fmt=jpeg

搜索业务场景归纳:

1、传统封闭系统

ERP、CRM、OA、知识管理系统、站内搜索、各种企业/电子政务系统

2、新型大众用户系统

移动应用、桌面应用、交互友好的WEB系统

3、技术应用

拼音-汉字的检索、自动补全、支持推荐系统

4、解救数据库的like查询

根据数据库数据量级和文本长度不同，性能可以提高数个量级

搜索应用场景举例:

很多政府信息公开网站的站内搜索使用数据库的like, 导致大量有用信息无法查询(场景2), 需要用垂直搜索技术提高查询的质量
拼音查询, 文字起始处查询和文字中间查询(场景1)
App本地搜索(场景1)

从应用场景上看，目前在大数据、用户产生数据的背景下，搜索的需求是刚性的。

技术选型

1. 检索引擎选型

彼时选型背景

Xapian相对完备的理论模型和技术实现，较早支持概率模型(BM25)，彼时Lucene和Sphinx不支持BM25(事实上都要晚上一两年)。
Lucene早期版本二次开发工作量太大，该版本更像一个实验性的项目, 只是实现了一些主要功能。
Lucene早期版本索引和检索的性能远低于C++实现的Xapian。
Solr定制灵活性较差, 比较适合整站页面抓取和全文索引处理, 不能满足对于电商产品的索引的需求(重点索引, 不需要全文)。
Sphinx与MySQL结合过于紧密，定制侵入性太强，检索模型单一，更适合对于相关性排序和权重计算不那么高的全文检索。

主要思路:

选型一定要了解业务和业务的价值，垂直搜索的核心价值在于，要对用户输入关键字的搜索意图有充分理解，返回的结果的相关性、权重排序要与用户高度匹配，提高满意度，所以对于检索模型和权重计算要求较高。

比如彼时, Nokia N97很流行, iPhone也很流行，当用户输入N97时，京东，亚马逊，一号店等绝大多数网站搜索出来的前10个几乎都为N97的配件，而我们搜索的结果是N97手机。

这就是全文搜索和垂直搜索在本质上的差异。在这点上跟推荐系统有点像，只不过推荐系统是根据用户的历史足迹和行为推定出来，而垂直搜索是通过关键字。某些情况下, 两者可以相互融合。

最终，我们选择了Xapian。

2. 存储选型

这部分主要从笔者所接触的系统着眼，一些看法从今天来看也许不一定正确，主要分享一下思路。当时我们选择了Cassandra+MongoDB，而不是HDFS/HBase。

几点原因:

HDFS处理小文件是个坑，空间浪费大，文件一多，检索性能慢。彼时HDFS没有现在这么稳定，NameNode会因为莫名的原因阻塞。HDFS文件管理跟普通的文件系统原理相同，命名空间节点有限，需要多级目录管理，最终检索太费劲。
HBase基于HDFS，性能一般，检索困难，Scheme定义没有MongoDB灵活。不过现在好多了。同样都有单点故障，彼时创业公司运维能力和资源没有那么多，感觉维护不来。
Cassandra 和MongoDB搭档基本解决我们问题，包括扩容方便，检索便利，scheme自由度高；Cassandra是去中心化的，只要不是几个机架一起坏，一般不会有事；基于一致性hash的数据分布，扩容比较无忧，会自协调；根据配置可以做到多份 replica，有容灾能力。
我们最初用的MongoDB 1.x版本功能雏形已经全了，检索方便，支持js的mapreduce。我们是基于Ruby和C++开发，而MongoDB最早支持Ruby。

创业公司选型最大的问题是时间问题. 我们不能停下来选型而不做业务. 这是个比较大矛盾. 上面提到的几点经验希望对大家有所借鉴.

垂直搜索的引擎架构

分享一下5000W数据以内的垂直搜索引擎的架构模型，模型中也涉及到了流式计算，当然彼时流式计算并没有如此完整的模型和开源项目的支持。我们可谓是蛮干了一把！此处可以参考王新春老师的实时计算在点评中内容做个比较(当然结论是, 我们还是很山寨的)。

整体架构包含以下部分:

1. 种子发生器

用于入口页面的发布，可以根据需求定义粒度，比如整个 http://www.jd.com 是一个入口，夺宝岛http://auction.jd.com/index.action 也是一个入口。后面会介绍业务场景。

2. 抓取系统（Cralwer）

单进程单线程异步多工方式抓取，分布部署，容错性，健壮性为主。通用的模块与具体站点和业务无关，只负责抓取，抓取的URL最初由种子发生器发出，后面有Parser页面解析系统分析URL再填充。Crawler是一个不会停止的系统。Crawler的数据key和meta-data存储于MongoDB，页面的 RAW 数据存储于 Cassandra。Crawler除了容错性，健壮性之外，性能其实非常重要。

3. 页面解析器（Parser）

业务相关，从MongoDB 和 Cassandra 获取数据负责对页面进行符合业务需求的分析，根据关键字、URL特征和预置的规则将页面URL和部分数据提取出来，另外实现查重的功能(几亿数据查重，采用 bloomfilter + Redis 实现 )

4. 数据分析器（Analyser）

语料分析, 真正的业务核心。将HTML的页面数据提取成结构化的数据，存储到MongoDB。整个架构最精彩的部分也在这里，如何能做到处理几十家不同网站数据提取和规整，并能跟上源站更新的节奏(当时某东, 几乎天天更新)，又便于多人并行开发和更新, 低耦合, 互相隔离, 持续部署是一个有趣的问题。

5. 索引器（Indexer）

完成从MongoDB取数据，分词，语法分析，部分语义分析，计算预置权重，完成索引。该模块完成一堆数据到信息的提炼，直接影响了用户查询结果的质量和满意度。比如判断语义，相关性排序等。索引工作从代码层面不难，调用几个函数把数据添加即可，但是其实功夫都花在前面了。索引和检索是垂直搜索引擎的大脑，是思考的部分，性能要好，结果要准。

6. 图片到文字的提取识别（Ocr）

最初测试过 Tesseract OCR ( 由HP开源, 后来由 Google 赞助的一个项目)，但是后来发现不实用，样本学习过程繁琐，更新不方便，关键识别太慢。后来我们手动写了一套专门只针对数字的识别服务。OCR处理会在索引之前完成。这一部分很多时候不是必须的，当时主要针对某东和后来被鹅厂收购的某讯，现在某东已经不是图片了。

下面来一张图，大概表示一下这之间的逻辑，分层关系图中表现的不是特别准确。核心中间件是RabbitMQ。

0?wx_fmt=jpeg

后来有所改进，我们把CWS也单独抽取出来，自己写了一个简单的MQ Agent，是基于Redis实现的，性能比RabbitMQ要好很多。建议有条件可以使劲的Hack。

垂直搜索技术和业务细节

1. 如何提高垂直检索质量和语义识别

其实语义识别本身是很难的，但是一定的关键词集合里是可以做到和优化的。比如前面提到的，搜索”N97 手机”搜索出一堆手机配件的问题，因为手机和手机配件含有相同的关键字。传统的相关度，权重的模型是基于语料库TF/IDF做的。但是商品的名称文字是很短的，基本上都只会出现一次，名称相似度也没有可以参考的，那怎么办呢?

这种情况我们就需要预置权重，我们编写了一套学习的工具。通过分类、品类，建立了词干、词根的树形结构；同时设定每层的权重，那么用户在搜索的时候，匹配从根部开始，那么就避免了搜出树枝部分。这是个非常繁琐细致的工作，要分析整个商品库，人工很难。需要有一套启发式的词根更新方法和工具。