背景
所谓的“多路召回”就是指采用不同的策略、特征或者简单模型,分别召回一部分候选集,然后再把这些候选集混合在一起后供后续排序模型使用的策略。
阿里云开放搜索(OpenSearch)是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。目前开放搜索提供文本检索,通过对文本query进行分词加上一些查询分析处理,对query进行改写后再查询引擎,大大提高了搜索的效果。但是对于一些对搜索效果要求较高的场景,例如:教育搜题场景,教育拍照搜题相比传统的网页或者电商的搜索存在明显的差异,第一点是搜索的Query特别长,第二点是搜索的Query由拍照OCR识别之后得到的文本,其中关键TERM识别错误的话,就会严重影响召回排序。针对这些问题的解决方法,一种方案是继续优化QP,增强QP对文本处理的能力。另一种方案是引入向量召回,通过计算向量空间的距离来召回文档,作为对文本召回的一种补充。
功能价值
在长Query、长尾Query、Query不规范等场景时,如果基于文本检索出现召回不准确、结果不足等问题,补充向量召回可以有效地提高召回文本的效果,同时也可以提供扩召回的能力。
开放搜索提供多路召回的算法工程能力,赋予不同行业的用户定制不同的多路召回功能需求,并且已经产品化,在多个行业的用户中实践应用。其优点有以下几个方面:
1、提供灵活的算法能力,支持根据不同行业的特点对文本向量化进行技术优化,兼顾效果和性能;
2、支持cava脚本,提供更加灵活的定制