CIKM23向量检索5篇论文一览

        好久不见,今天给大家分享CIKM23中跟向量检索相关的5篇文章。

向量检索简介

        首先,给大家简单介绍一下向量检索(Dense Retriever)的发展背景。向量召回的前身就是经典的传统检索方法,比如TF-IDF、BM25,其中BM25因其高效性及稳定性仍广泛应用于现如今许多检索系统中。但是此类传统方法通常只考虑query和doc之间的词汇匹配情况,容易受到同义词或拼写错误的影响。而向量检索则可以将query和doc进行向量化,通过各类相似度计算方法,进行泛化性检索召回。

        向量检索模型一般采用双塔结构,如经典的DSSM。双塔模型有非常多的分类、变体和技巧,这里就不再赘述了。工业界应用时一般都将doc进行提前向量化,并使用annoy或faiss构建索引,线上只对query进行实时编码。

        按照编码器不同可以将向量检索粗略分为以下两个阶段:

  • 传统神经网络检索。编码器一般采用一些浅层神经网络编码,如DNN、CNN、RNN等。

  • 基于PLM的检索模型。采用规模较大的预训练语言模型作为编码器,如Sentence BERT、ColBERT等。

双塔结构优化-百度

《i3 retriever: incorporating implicit interaction in pre-trained language models for passage retrieval》

背景介绍

        在双塔模型中,query塔和doc塔信息的交互一直是一个备受研究者关注的方向。我们常见的双塔模型结构如下图中(b)所示,可称为双编码器结构(Dual-encoder),即query和doc分开进行编码,然后再进行信息的交互。双编码器结构的主要优点是推理效率高,因为query和doc的编码过程是并行的,而且doc的编码结果也是可以存储记录的。但是很明显,query和doc是分开编码的,效果上肯定差点意思。

        而交叉编码器(Cross-encoder)结构如图(a)所示,这种结构下query和doc会一齐作为输入来进行编码,以使编码结果包含两者的交互信息,而这一信息正是检索过程中所需要的。但是,交叉编码器针对N个不同的query和M个doc,需要编码M*N次(双编码器需要编码M+N次),具有较高的推理延迟,线上实际应用时也很难通过缓存有效解决这一问题。

        结合以上两种方法,后期交互编码器单独编码query和doc,并在编码后采用后期交互而达成二者信息的交互融合,其结构如上图(c)所示。后期编码器通常比双编码器效果更好,比交叉编码器效率更高。但是,这种后期交互模型在大型语料库上的仍然是次优的,主要有以下两个问题:

  • 由于语料库巨大,段落表示的存储成本巨大

  • 在交互模块Interactor中,query和doc的编码向量实际还是需要进行额外的交互计算,只不过相比交叉式,该计算过程少了编码的步骤,会好很多。而在双编码器中,只需要对query和doci进行简单的点积运算即可。

方法思路

        既然要进行query和doc的信息交互,那么必然query和doc会在某一阶段进行碰撞。既然要碰撞,线上不知道query的情况下就没法提前进行,那么就会影响线上推理速度。假如我们先不看这篇论文的具体优化方法,想一下,面对这样的问题,我们该怎么解决?(有好的idea也可以发paper)

        百度这里给出的答案是,既然真实的query离线阶段不能获取,那么我自己搞一个假的query总可以吧,虽然不是真实的,但相比起不交互来说效果肯定不差,还能保证线上速度。如上图(d)所示,整体结构是基于双编码器结构的,但是在doc塔下添加了两个部分:query生成、query和doc交互。

        这个结构图很明确了,即先对doc进行query生成,模拟线上真实的query,并与其进行交互。假如这个生成器是完美的(实际肯定不可能),那么doc生成的query和线上就是无差的,既保证了交互效果,又保证了推理速度。百度给这种方法起名叫Incorporate Implicit Interaction into dual-encoders,简称I^3,可以翻译为隐式交互双编码器。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值