信息检索与事实核查（1）：Search-Adaptor: Embedding Customization for Information Retrieval-CSDN博客

本文链接：https://blog.csdn.net/zhuzaiyebol/article/details/141641458

Search-Adaptor: Embedding Customization for Information Retrieval

摘要
1 引言
2 相关工作
3 问题公式化
4 方法
结论

发布时间（2024ACL）

标题：搜索适配器，为信息检索定制的适配器
为信息检索定制 LLM
sentence-T5 google openai都有文本嵌入
不微调大模型，只使用推理能力
我们引入了一种新颖的排名损失和多个正则化器，可以减少过度拟合和遗忘，从而即使在小数据范围内也能提高检索性能。

摘要

由预训练的大型语言模型 (LLM) 提取的嵌入具有显著的改善信息检索和搜索的潜力。除了传统上使用的零样本设置之外，能够利用相关查询语料库配对数据中的信息可以进一步提升 LLM 功能。在本文中，我们提出了一种新方法 SearchAdaptor，用于以高效且稳健的方式定制用于信息检索的 LLM。 Search-Adaptor 修改了由预训练的 LLM 生成的嵌入，并且可以与任何 LLM 集成，包括仅通过预测 API 提供的 LLM。在多个英语、多语言和多模式检索数据集上，我们展示了 Search-Adaptor 的一致且显著的性能优势 - 例如，在 14 个 BEIR 数据集上，nDCG@10 中的 Google 嵌入 API 平均提高了 5% 以上。

1 引言

信息检索被广泛认为是通过查询语料库数据库来搜索信息的任务，该数据库可能包含许多不同类型的数据，例如文档、网页或日志。它在许多行业都有广泛的应用，包括零售、医疗保健和金融，世界经济的很大一部分都建立在此之上。特别是，语言建模是信息检索的关键部分，因为在大多数情况下，查询和语料库数据都是文本形式。大型语言模型 (LLM) 已