《LLM+搜索召排》10篇论文一览

    在上篇《LLM+搜索改写》10篇论文一览中,我们介绍了LLM应用于搜索排序领域的一些文章, 今天接着介绍LLM应用于召排的10篇文章。

    召排作为搜索系统中的关键步骤,相关的模型和trick非常多,这里就不再介绍,直接进入主题。

一、召回

    召回(retrive)是搜索系统中的核心模块,可分为基于统计算法的稀疏检索(Sparse Retriever)和基于神经网络的密集检索(Dense Retriever)。目前的检索仍存在以下问题:

  • query短且模糊

  • doc长且噪声多

  • 监督数据标注成本高

  • PLM模型仍存在改进空间

    目前不少研究将LLM引入检索模块,可以粗略分为基于encoder的检索器以及基于生成式的检索器。

基于encoder的LLM检索器

    基于encoder的检索器指的是在密集检索中,使用LLM出色的语义能力获取query或doc的向量表示,用向量检索器进行检索召回。相关研究有下:

  • cpt-text:Text and Code Embeddings by Contrastive Pre-Training

  • GTR:Large Dual Encoders Are Generalizable Retrievers

  • TART:Task-aware Retrieval with Instructions

    OpenAI在未标记的数据上使用带负采样的对比学习,将相邻的文本视为正样本,从头训练了四种参数级别的嵌入模型,命名为cpt-text,用以产生文本的高质量向量表示。这种结合预训练模型初始化、大批量对比学习和大规模训练的简单配方可以产生具有广泛能力的高质量文本向量,甚至会超越在领域内数据上微调后的语言模型。

图片

cpt-text

    但是对于大多数人来说,从头训练一个LLM的成本是非常高的。因此,有不少研究基于已有的LLM进行微调。GTR(Generalizable T5-based dense Retrievers)使用T5家族初始化双编码器模型参数,然后在数据集上进行微调。不管是cpt-text还是GTR,实验都表明,模型尺度越大,其无监督学习和文本搜索任务的迁移学习性能越好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值