使用LLM来人造数据增强embedding检索模型_token级别的相似度-CSDN博客

本文链接：https://blog.csdn.net/xxue345678/article/details/139853885

前言：

今天介绍一篇META发表的一个论文LLM-Augmented Retrieval: Enhancing Retrieval Models Through Language Models and Doc-Level Embedding。旨在通过大语言模型来人造数据，增强检索模型的能力。此外，它提出了一种新的模型无关的文档级embedding框架。

笔者锐评：其实看这篇文章，学习下人造数据的prompt，以及使用人造数据的时候和真实的检索数据区分下（可以参考作者调试出来的权重参数以及做的消融实验）。此外，它介绍了两种策略，一种是难负例挖掘的改进，一种是loss的改进。

人造数据：

motivation：

query和doc一般是异构的，因此，通过LLM为doc人造一个query，充当一个query和doc的中间媒介，可以降低query检索到对应doc的难度。

主要工作：

使用LLM为每个doc生成人造title，以及人造query。另外，把长doc切分为多个chunks(passages)来进行检索。(这里直接使用原文)。

生成人造query和title的prompt如下：

doc-level embedding框架：

把doc的文本拆分为三种embedding：synthetic queries, title and chunk。

其中如下图所示，人造query以及chunk有多个，而title只有一个。作者认为：这样可以从不同的角度来表示doc的语义。有利于检索。

双塔模型的应用：

本质上就是在这种框架下，如何计算query和doc的相似度。

s是相似度函数，一般为余弦相似度。

左边的这一项目：是当前doc检索常用的一种方法。把doc切分为chunk，计算queyr和第i个chunk的相似度，然后取query与所有chunk中，相似度最大值，作为query和doc的相似度。

右边的求和是query和三种不同的doc表示(e_f)来进行相似度的计算。****（synthetic queries, title and chunk）

w_f是0-1之间的权重参数，代表不同表示的重要性。

其中synthetic queries和chunk有多个，title只有一个：

有多个的也会有多个embedding，因此作者的做法是把多个synthetic queries(chunk)先抽取固定维度的向量，然后再进行一个mean poolling。再来和query计算相似度。

另外，因此相似度函数(点积和余弦相似度是线性的，因此，上述的公式可以被简化为：

因此，每个chunk有自己的一个embedding即可，同时，也可以用ANN搜索。

colbert模型的应用：

作者认为，因为colbert是token级别的计算相似度(query的一个token的embedding，会去和doc所有token的embedding去计算相似度，然后取最大)，因此将doc的不同表示synthetic queries, title and chunk，拼接起来就行。他们会参与query与doc的计算。