在大规模数据集中如何进行快速信息检索

8be169206d822307696719874bd8c0d4.png

原文刊载于《大数据》2024年第1期研究
《基于容忍因子的近似最近邻混合查询算法》

b46f6a8cc4b9edcef769c070e7fb58d9.png

贺广福1,2, 薛源海1, 陈翠婷1,2, 俞晓明1,2, 刘欣然1,3, 程学旗1,2

1. 中国科学院计算技术研究所,北京 100190; 
2. 中国科学院大学,北京 101408; 
3. 北京邮电大学,北京 100876

DOI:10.11959/j.issn.2096-0271.2024010

近似最近邻搜索

PART 1

近似最近邻搜索(approximate nearest neighbor search,ANNS),这个词看着挺陌生的,但是它的应用非常广泛,包括图像搜索、信息推荐、序列匹配、大语言模型应用等。

举个例子

你看到朋友的一张美照,想去搜同款裙子。在电商平台的商品搜索中,你可以直接输入“裙子”进行搜索,平台会给你推荐很多好看的裙子。这里的“裙子”就是结构化信息。 

dfbee01250fa345add03977ce6e54943.png

如果你不想浏览那么多商品,只想快速找到朋友的同款裙子,你可以试试上传照片。平台会依据这张照片检测出相关的商品,除了裙子,它甚至还检测出了包包、项链等。你可以选择自己需要的商品,浏览平台推荐的其他商品。这里的“照片”就是非结构化信息

13e9f6a9bd8c61a78901b1782a93903b.jpeg

在如今的数字化时代,人们对高精度信息检索的需求不断增长,同时使用结构化信息和非结构化信息进行混合查询(hybrid query)的方式也得到了广泛应用。

然而,ANNS主要关注非结构化信息,对结构化信息的影响关注较少,这导致ANNS在满足结构化约束信息检索需求方面的表现并不理想。

混合查询

PART 2

在ANNS算法上扩展结构化数据过滤是解决混合查询的重要方法。按照结构化约束相对向量检索召回的先后顺序,可将这些算法分为后处理、前处理和内联处理。

15e7f502cbbf6a9f7fde2bf337a250c6.jpeg

1 后处理

在查询时,先执行非结构化查询,然后应用非结构化约束信息来过滤非结构化查询召回的数据。

这种方法很容易在原来的方法上扩展实现。但是,后处理需要对检索的结果进行修正,存在一定的误差和不确定性。

2 前处理

用结构化约束属性构建额外的索引,召回满足过滤条件的向量,然后再使用原来的ANNS方法查询非结构数据。

构建额外的索引结构往往需要高昂的计算或者存储代价。

3 内联处理

在原来非结构查询的过程中动态地应用后处理方法。如典型代表FAISS-IVF,它将向量索引和结构化约束属性同时进行倒排索引,在查询时同时筛选结构化和非结构化信息。

内联处理方法高效、准确,适用于对实时性要求较高的应用场景。

过滤贪心检索算法

PART 3

在非结构化信息检索中,基于近邻图类的ANNS算法在高维度、大规模数据集上表现优异,因此扩展此类方法的内联处理混合查询具有较好的应用前景,是ANNS领域的重要研究分支。

基于近邻图的内联混合查询中,一般使用贪心过滤搜索(filtered greedy search,FGS)算法在近似近邻图上检索路由。

优缺点

在搜索时依据结构化约束条件进行剪枝,可以快速收敛检索结果,表现出较好的检索效率和较低的额外开销,具有优秀的检索性能。

在查询时仅依据满足结构化约束的点进行路由,降低了ANNS在构建索引时近邻图的连通性预期,导致检索结果的精确度下降。

基于容忍因子的近似最近邻混合查询算法

PART 4

针对上述挑战,提出了一种基于容忍因子的过滤贪心搜索(tolerance factor based filtered greedy search,TF-FGS)算法。

TF-FGS算法通过引入容忍因子,在不改变索引结构的前提下保留近邻图的连通性,从而解决由于结构化约束对搜索算法造成的影响,提升了结果准确率。同时, TF-FGS算法保留了与没有结构化约束的ANNS近似的搜索效率。

204b34cdd95c007089576aaa72b1d8d8.jpeg

大量实验预警!!!

(跳过实验、查看原文请点击篇末【阅读原文】)

fc6471fd8ee43852affd209216533e90.png

699ea500749b499964c6ac85dcd586ea.gif

TF-FGS算法与FGS算法效果对比

在所有数据集中,使用TF-FGS算法比FGS算法在相同的结构化约束强度下precision@10均有明显提高。这表明基于容忍因子的过滤贪心算法可以有效地克服结构化约束条件对检索精度的负面影响。

97c29e82862ba4ff461da60f54b398dd.png

8992b58b1b2b46595f830d7f4683efbf.gif

容忍因子对混合查询的影响

在不改变索引结构的条件下,检索参数ef不变时,适当的容忍因子α可以在保持检索效率不变的同时,显著增强检索的精确度,且在结构化约束强度Q较大时尤为显著。

在GloVe.6B数据集上检索参数ef、α和Q对precision@k的影响如下图所示。

f017871dac2773ad77d1b51db1dda987.png

同等参数条件下近邻图的连通性对检索效率的影响如下图所示。

640fe99b07497e8d326cdd788b319e67.png

af90e1da6c5d3c555ba02117cbb8f6ef.gif

TF-FGS算法在不同索引上的有效性分析

TF-FGS算法在多种不同的近邻图索引上相对于FGS算法能够获得更好的检索性能,两者的效果对比如下图所示。

c373746cc5a32af9aa39942ecede3e4b.png

342593ddc5191ab2b9372b4121c65bdd.gif

TF-FGS算法在不同数据集的有效性分析

TF-FGS算法在多种近邻图索引和多种数据集下均有较好的表现,具有一定的普适性,其可以在不影响检索效率的前提下解决路由时的连通性问题,极大地降低了结构化约束强弱对检索精确度的影响。

多数据集上近邻图的连通性对检索精确度的影响如下图所示。

a2687f7224ad31de19005cccd9706cda.png

多数据集上近邻图的连通性对检索效率的影响如下图所示。

1a16cbdcdb51b92f72ad8e2a65d42fd8.png

总结

PART 5

主要贡献

1

分析了FGS算法存在的问题。在搜索过程中,路由候选集合所有向量必须满足结构化约束,过度约束了可路由的路径,影响了路由过程中近邻图的连通性,导致搜索准确率下降。

2

提出了一种TF-FGS算法,在不改变索引结构的条件下,允许不满足结构化约束的向量参与路由,在维持原有检索效率的同时,提升了检索结果的准确率。

3

在不同类型的基准数据集上进行了实验,验证本文提出的TF-FGS算法相比FGS算法,在保持查询效率不变的情况下,提高了混合查询的准确率。

(点击篇末阅读原文』阅读及下载本文)

联系我们:

Tel:010-53879208

       010-53878019

E-mail:bdr@bjxintong.com.cn 

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作:010-53878078

大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

09caf45cbf3298f7b1717301bd5ffee1.jpeg

关注《大数据》期刊微信公众号,获取更多内容

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值