信息检索与事实核查(1):Search-Adaptor: Embedding Customization for Information Retrieval


发布时间(2024ACL)


标题:搜索适配器,为信息检索定制的适配器
为信息检索定制 LLM
sentence-T5 google openai都有文本嵌入
不微调大模型,只使用推理能力
我们引入了一种新颖的排名损失和多个正则化器,可以减少过度拟合和遗忘,从而即使在小数据范围内也能提高检索性能。

摘要

由预训练的大型语言模型 (LLM) 提取的嵌入具有显著的改善信息检索和搜索的潜力。除了传统上使用的零样本设置之外,能够利用相关查询语料库配对数据中的信息可以进一步提升 LLM 功能。在本文中,我们提出了一种新方法 SearchAdaptor,用于以高效且稳健的方式定制用于信息检索的 LLM。 Search-Adaptor 修改了由预训练的 LLM 生成的嵌入,并且可以与任何 LLM 集成,包括仅通过预测 API 提供的 LLM。在多个英语、多语言和多模式检索数据集上,我们展示了 Search-Adaptor 的一致且显著的性能优势 - 例如,在 14 个 BEIR 数据集上,nDCG@10 中的 Google 嵌入 API 平均提高了 5% 以上。

1 引言

信息检索被广泛认为是通过查询语料库数据库来搜索信息的任务,该数据库可能包含许多不同类型的数据,例如文档、网页或日志。它在许多行业都有广泛的应用,包括零售、医疗保健和金融,世界经济的很大一部分都建立在此之上。特别是,语言建模是信息检索的关键部分,因为在大多数情况下,查询和语料库数据都是文本形式。 大型语言模型 (LLM) 已

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值