在上篇《LLM+搜索改写》10篇论文一览中,我们介绍了LLM应用于搜索排序领域的一些文章, 今天接着介绍LLM应用于召排的10篇文章。
召排作为搜索系统中的关键步骤,相关的模型和trick非常多,这里就不再介绍,直接进入主题。
一、召回
召回(retrive)是搜索系统中的核心模块,可分为基于统计算法的稀疏检索(Sparse Retriever)和基于神经网络的密集检索(Dense Retriever)。目前的检索仍存在以下问题:
-
query短且模糊
-
doc长且噪声多
-
监督数据标注成本高
-
PLM模型仍存在改进空间
目前不少研究将LLM引入检索模块,可以粗略分为基于encoder的检索器以及基于生成式的检索器。
基于encoder的LLM检索器
基于encoder的检索器指的是在密集检索中,使用LLM出色的语义能力获取query或doc的向量表示,用向量检索器进行检索召回。相关研究有下:
-
cpt-text:Text and Code Embeddings by Contrastive Pre-Training
-
GTR:Large Dual Encoders Are Generalizable Retrievers
-
TART:Task-aware Retrieval with Instructions
OpenAI在未标记的数据上使用带负采样的对比学习,将相邻的文本视为正样本,从头训练了四种参数级别的嵌入模型,命名为cpt-text,用以产生文本的高质量向量表示。这种结合预训练模型初始化、大批量对比学习和大规模训练的简单配方可以产生具有广泛能力的高质量文本向量,甚至会超越在领域内数据上微调后的语言模型。
cpt-text
但是对于大多数人来说,从头训练一个LLM的成本是非常高的。因此,有不少研究基于已有的LLM进行微调。GTR(Generalizable T5-based dense Retrievers)使用T5家族初始化双编码器模型参数,然后在数据集上进行微调。不管是cpt-text还是GTR,实验都表明,模型尺度越大,其无监督学习和文本搜索任务的迁移学习性能越好。