AI推介-大语言模型LLMs之RAG（检索增强生成）论文速览（arXiv方向）：2024.07.01-2024.07.20

最新推荐文章于 2025-04-01 20:33:01 发布

小小帅AIGC

最新推荐文章于 2025-04-01 20:33:01 发布

阅读量844

点赞数 5

分类专栏： LLMs论文时报文章标签：人工智能语言模型自然语言处理 RAG LLM 检索生成增强

本文链接：https://blog.csdn.net/weixin_44362044/article/details/140621073

版权

LLMs论文时报专栏收录该内容

71 篇文章

订阅专栏

文章目录～

1.ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
2.Conditioning Chat-GPT for information retrieval: the Unipa-GPT case study
3.RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering
4.Retrieval-Augmented Generation for Natural Language Processing: A Survey
5.Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach
6.Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models
7.Better RAG using Relevant Information Gain
8.Scientific QA System with Verifiable Answers
9.Evaluation of RAG Metrics for Question Answering in the Telecom Domain
10.Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems
11.Document-level Clinical Entity and Relation Extraction via Knowledge Base-Guided Generation
12.Context Embeddings for Efficient Answer Generation in RAG
13.CompAct: Compressing Retrieved Documents Actively for Question Answering
14.Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting
15.RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension
16.PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods
17.RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
18.Meta-prompting Optimized Retrieval-augmented Generation
19.DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation
20.Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning
21.RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
22.Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation
23.Retrieval-augmented generation in multilingual settings
24.Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
25.Searching for Best Practices in Retrieval-Augmented Generation
26.Learning to Explore and Select for Coverage-Conditioned Retrieval-Augmented Generation
27.BERGEN: A Benchmarking Library for Retrieval-Augmented Generation
28.Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese

1.ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

标题:ChatQA 2：弥合长语境和 RAG 能力方面与专有 LLM 的差距

author:Peng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro

date Time:2024-07-19

paper pdf:http://arxiv.org/pdf/2407.14482v1

摘要：
在这项工作中，我们介绍了 ChatQA 2，这是一种基于 Llama3 的模型，旨在缩小开放式 LLM 与领先的专有模型（如 GPT-4-Turbo）在长语境理解和检索增强生成（RAG）能力方面的差距。这两项能力对于 LLM 处理大量信息至关重要，因为这些信息无法通过单一提示进行处理，而这两项能力又是相辅相成的，具体取决于下游任务和计算预算。我们提出了一个详细的持续训练配方，将 Llama3-70B-base 的上下文窗口从 8K 扩展到 128K 标记，同时提出了一个三阶段指令调整过程，以增强模型的指令跟随、RAG 性能和长上下文理解能力。我们的研究结果表明，Llama3-ChatQA-2-70B 模型在许多长语境理解任务上的准确率与 GPT-4-Turbo-2024-0409 不相上下，在 RAG 基准上则超过了 GPT-4-Turbo-2024-0409。有趣的是，我们发现最先进的长语境检索器可以缓解 RAG 中的 top-k 上下文碎片问题，从而进一步提高基于 RAG 的长语境理解任务的结果。我们还使用最先进的长语境 LLM 对 RAG 和长语境解决方案进行了广泛的比较。

2.Conditioning Chat-GPT for information retrieval: the Unipa-GPT case study

标题:为信息检索调节聊天-GPT：Unipa-GPT 案例研究

author:Irene Siragusa, Roberto Pirrone

date Time:2024-07-19

paper pdf:http://arxiv.org/pdf/2407.14246v1

摘要：
本文介绍了 Unipa-GPT 聊天机器人的架构和培训情况。Unipa-GPT 是一款依靠大型语言模型开发的聊天机器人，用于帮助巴勒莫大学的学生选择学士/硕士学位课程。Unipa-GPT 依靠 gpt-3.5-turbo，在欧洲研究人员之夜（SHARPER 之夜）上进行了展示。在实验中，我们采用了检索增强生成（RAG）方法和微调方法来开发系统。我们介绍了 Unipa-GPT 的整个架构，比较了 RAG 和微调系统，并简要讨论了它们的性能。此外，还说明了与其他大型语言模型的比较以及 SHARPER 之夜的实验结果。

3.RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering

标题:RAG-QA Arena：评估长式检索增强型问题解答的领域鲁棒性

author:Rujun Han, Yuhao Zhang, Peng Qi, Yumo Xu, Jenyuan Wang, Lan Liu, William Yang Wang, Bonan Min, Vittorio Castelli

date Time:2024-07-19

paper pdf:http://arxiv.org/pdf/2407.13998v1

摘要：
基于检索增强生成的问题解答（RAG-QA）是 NLP 领域的一个重要研究课题，在现实世界中有着广泛的应用。然而，现有的大多数用于该任务的数据集要么是使用单一源语料库构建的，要么是由简短的提取答案组成的，无法评估基于大型语言模型（LLM）的 RAG-QA 系统的跨域泛化能力。为了解决这些局限性，我们创建了长式鲁棒性质量保证（LFRQA），这是一个新的数据集，由人类撰写的长式答案组成，将多个文档中的简短提取答案整合成一个连贯的叙述，涵盖 26K 个查询和七个不同领域的大型语料库。我们进一步提出了 RAG-QA 竞技场，使用 LLM 作为评估者，直接将模型生成的答案与 LFRQA 的答案进行比较。我们通过大量实验表明，RAG-QA Arena 和人类对答案质量的判断高度相关。此外，在最具竞争力的 LLM 答案中，只有 41.3% 的答案优于 LFRQA 答案，这表明 RAG-QA Arena 是未来研究中极具挑战性的评估平台。

4.Retrieval-Augmented Generation for Natural Language Processing: A Survey

标题:自然语言处理的检索增强生成：调查

author:Shangyu Wu, Ying Xiong, Yufei Cui, Haolun Wu, Can Chen, Ye Yuan, Lianming Huang, Xue Liu, Tei-Wei Kuo, Nan Guan, Chun Jason Xue

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13193v2

摘要：
大语言模型（LLM）因其存储知识的大量参数而在各个领域取得了巨大成功。然而，LLM 仍然存在几个关键问题，如幻觉问题、知识更新问题以及缺乏特定领域的专业知识。检索增强生成（RAG）利用外部知识数据库来增强 LLM，它的出现弥补了 LLM 的这些缺陷。本文回顾了 RAG 的所有重要技术，尤其是检索器和检索融合技术。此外，本文还提供了实现 RAG 中代表性技术的教程代码。本文进一步讨论了 RAG 训练，包括有/无数据存储更新的 RAG。然后，我们介绍了 RAG 在代表性自然语言处理任务和工业场景中的应用。最后，本文讨论了 RAG 的未来发展方向和挑战，以促进其发展。

5.Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach

标题:检索、总结、计划：用迭代法推进多跳问题解答

author:Zhouyu Jiang, Mengshu Sun, Lei Liang, Zhiqiang Zhang

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13101v1

摘要：
多跳问题解答是一项具有挑战性的任务，与工业领域有着明显的相关性，而基于大型语言模型（LLM）的检索增强生成（RAG）方法已成为解决这一任务的流行方法。由于可能无法在一次迭代中检索到所有必要信息，最近开发了一系列迭代 RAG 方法，显示出显著的性能改进。然而，现有方法仍面临两个关键挑战：一是多轮检索导致的上下文超载，二是由于缺乏记录的检索轨迹而导致的过度规划和重复规划。在本文中，我们提出了一种名为 ReSP 的新型迭代 RAG 方法，该方法配备了一个双功能摘要器。该摘要器可压缩检索文档中的信息，同时针对总体问题和当前子问题。在多跳问题解答数据集 HotpotQA 和 2WikiMultihopQA 上的实验结果表明，我们的方法明显优于最先进的方法，并在上下文长度方面表现出卓越的鲁棒性。

6.Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models

标题:通过检索增强生成启用大型语言模型的可解释生物医学假设

author:Alexander R. Pelletier, Joseph Ramirez, Irsyad Adam, Simha Sankar, Yu Yan, Ding Wang, Dylan Steinecke, Wei Wang, Peipei Ping

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12888v1

摘要：
如今，海量的生物医学信息给寻求有效消化、处理和理解这些研究结果的研究人员带来了巨大的挑战。大型语言模型（LLM）已成为驾驭这一复杂而又充满挑战的数据环境的有力工具。然而，大型语言模型可能会导致幻觉反应，因此检索增强生成（RAG）对于获得准确信息至关重要。在本协议中，我们介绍了 RUGGED（图引导下可解释疾病区分检索），这是一个全面的工作流程，旨在支持研究人员进行知识整合和假设生成，确定有效的前进路径。通过文本挖掘关联分析和疾病节点上的可解释图预测模型，对出版物和知识库中的相关生物医学信息进行审查、整合和提取，预测药物和疾病之间的潜在联系。这些分析与生物医学文本一起被整合到一个框架中，通过支持 RAG 的 LLM，促进用户导向的机制阐释和假设探索。一个临床用例展示了 RUGGED 评估和推荐心律失常性心肌病 (ACM) 和扩张型心肌病 (DCM) 治疗方法的能力，分析了处方药的分子相互作用和未开发用途。该平台最大限度地减少了 LLM 幻觉，提供了可行的见解，并改进了新型疗法的研究。

7.Better RAG using Relevant Information Gain

标题:利用相关信息获得更好的 RAG

author:Marc Pickett, Jeremy Hartman, Ayan Kumar Bhowmick, Raquib-ul Alam, Aditya Vempaty

publish:4 page paper submitted to EMNLP

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.12101v1

摘要：
扩展大型语言模型（LLM）内存的常用方法是检索增强生成（RAG），即把从更大内存中检索到的文本插入 LLM 的上下文窗口。然而，上下文窗口通常仅限于几千个词组，这就限制了可为模型响应提供信息的检索段落的数量。因此，通过确保所检索段落的多样性来避免冗余信息占据上下文窗口空间是非常重要的。同时，这些信息还应该与当前任务相关。之前大多数鼓励检索结果多样性的方法，如最大边际相关性（MMR），都是通过在多样性和相关性之间进行明确权衡的目标来实现的。我们提出了一种基于相关信息增益的新颖、简单的优化指标，它是对一组检索结果中与查询相关的全部信息的概率度量。通过优化这一指标，我们的系统有机地产生了多样性。当用作 RAG 系统检索组件的直接替代品时，这种方法在检索增强生成基准（RGB）的问题解答任务中取得了一流的性能，超过了直接优化相关性和多样性的现有指标。

8.Scientific QA System with Verifiable Answers

标题:可验证答案的科学质量保证系统

author:Adela Ljajić, Miloš Košprdić, Bojana Bašaragin, Darija Medvecki, Lorenzo Cassano, Nikola Milošević

publish:Accepted at the 6th International Open Search Symposium 2024. arXiv
admin note: substantial text overlap with arXiv:2402.18589

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.11485v1

摘要：
在本文中，我们将介绍 VerifAI 项目，这是一个开创性的开源科学问题解答系统，旨在提供不仅有参考文献，而且经过自动审核和验证的答案。该系统由以下部分组成：(1) 结合科学论文（PubMed）语义和词法搜索技术的信息检索系统；(2) 使用微调生成模型（Mistral 7B）和检索文章的检索-增强生成（RAG）模块，生成附有文章参考文献的答案；(3) 基于微调 DeBERTa 和 XLM-RoBERTa 模型的验证引擎，使用 SciFACT 数据集完成自然语言推理任务。验证引擎交叉检查生成的索赔和索赔所依据的文章，验证在生成索赔时是否存在任何幻觉。通过利用信息检索和 RAG 模块，Verif.ai 能够从大量科学来源中生成事实信息。同时，验证引擎会对这些输出进行严格的双重检查，确保其准确性和可靠性。这种双阶段流程在获取和确认事实信息方面发挥着至关重要的作用，极大地改善了信息环境。我们的方法可以大大提高科学家的工作效率，同时在科学领域应用生成式语言模型时促进信任，因为在科学领域，幻觉和错误信息是不可接受的。

9.Evaluation of RAG Metrics for Question Answering in the Telecom Domain

标题:电信领域问题解答的 RAG 指标评估

author:Sujoy Roychowdhury, Sumit Soman, H G Ranjani, Neeraj Gunda, Vansh Chhabra, Sai Krishna Bala

publish:Accepted for publication in ICML 2024 Workshop on Foundation Models
in the Wild

date Time:2024-07-15

paper pdf:http://arxiv.org/pdf/2407.12873v1

摘要：
检索增强生成（RAG）被广泛用于使大型语言模型（LLM）在不同领域执行问题解答（QA）任务。然而，基于开源 LLM 的 RAG 在评估生成的回答方面面临挑战。文献中一个流行的框架是 RAG Assessment (RAGAS)，这是一个使用 LLMs 进行评估的公开库。RAGAS 的一个缺点是缺乏评估指标数值推导的细节。这项工作的成果之一是针对少数指标（忠实度、上下文相关性、答案相关性、答案正确性、答案相似性和事实正确性）对该软件包进行了修改，通过该软件包，我们可以使用任何 LLMs 提供提示的中间输出。接下来，我们分析了专家对修改后的 RAGAS 软件包输出结果的评价，并观察了在电信领域使用该软件包所面临的挑战。我们还研究了正确检索与错误检索下的指标效果，发现正确检索下的指标值较高。我们还研究了基础嵌入与通过预训练和微调进行领域调整的嵌入之间的指标差异。最后，我们对这些指标在实际电信质量保证任务中的适用性和挑战进行了评论。

10.Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems

标题:加强检索和管理检索：提高 RAG 系统质量和效率的四模块协同作用

author:Yunxiao Shi, Xing Zi, Zijing Shi, Haimin Zhang, Qiang Wu, Min Xu

publish:ECAI2024 #1304

date Time:2024-07-15

paper pdf:http://arxiv.org/pdf/2407.10670v1

摘要：
检索增强生成（RAG）技术利用大型语言模型（LLM）的上下文学习能力，生成更准确、更相关的响应。RAG 框架起源于简单的 "检索-阅读 "方法，现已发展成为高度灵活的模块化范例。其中一个关键组件–查询重写模块–通过生成便于搜索的查询来增强知识检索。这种方法能使输入问题与知识库更紧密地结合起来。我们的研究发现了将 Query Rewriter 模块增强为 Query Rewriter+ 的机会，即通过生成多个查询来克服与单个查询相关的信息高原，以及通过重写问题来消除歧义，从而明确基本意图。我们还发现，当前的 RAG 系统在无关知识方面存在问题；为了克服这一问题，我们提出了知识过滤器。这两个模块都基于经过指令调整的 Gemma-2B 模型，共同提高了答题质量。最后一个发现的问题是冗余检索，我们引入了记忆知识库和检索触发器来解决这个问题。前者支持以无参数方式动态扩展 RAG 系统的知识库，后者优化了访问外部知识的成本，从而提高了资源利用率和响应效率。这四个 RAG 模块协同提高了 RAG 系统的响应质量和效率。这些模块的有效性已通过六个常见质量保证数据集的实验和消融研究得到验证。源代码可通过 https://github.com/Ancientshi/ERM4 访问。

11.Document-level Clinical Entity and Relation Extraction via Knowledge Base-Guided Generation

标题:通过知识库引导生成实现文档级临床实体和关系提取

author:Kriti Bhattarai, Inez Y. Oh, Zachary B. Abrams, Albert M. Lai

publish:Accepted at Association for Computational Linguistics BioNLP 2024

date Time:2024-07-13

paper pdf:http://arxiv.org/pdf/2407.10021v1

摘要：
生成式预训练转换器（GPT）模型具有精确提取和上下文理解能力，因此在临床实体和关系提取任务中大有可为。在这项工作中，我们进一步利用统一医学语言系统（UMLS）知识库来准确识别医学概念，并改进文档级的临床实体和关系提取。我们的框架选择与文本相关的 UMLS 概念，并将其与提示相结合，以指导语言模型提取实体。我们的实验证明，与不利用 UMLS 的通用语言模型上的少量提取任务相比，这种初始概念映射以及在提示中包含这些映射概念的做法能改善提取结果。此外，我们的结果表明，这种方法比标准的检索增强生成（RAG）技术更有效，后者是将检索数据与提示嵌入进行比较后生成结果。总之，我们发现，将 UMLS 概念与 GPT 模型相结合能显著提高实体和关系的识别能力，其效果优于基线模型和 RAG 模型。通过将 UMLS 等基于知识的方法的精确概念映射能力与 GPT 的上下文理解能力相结合，我们的方法凸显了这些方法在医疗保健等专业领域的潜力。

12.Context Embeddings for Efficient Answer Generation in RAG

标题:在 RAG 中高效生成答案的上下文嵌入

author:David Rau, Shuai Wang, Hervé Déjean, Stéphane Clinchant

publish:10 pages

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.09252v1

摘要：
Retrieval-Augmented Generation（RAG）通过利用外部信息扩展输入，克服了 LLM 知识有限的问题。因此，模型的上下文输入会变得更长，从而减慢解码时间，直接转化为用户等待答案的时间。为了应对这一挑战，我们提出了 COCOM 这种有效的上下文压缩方法，将冗长的上下文缩减为少量上下文嵌入，从而大大加快了生成时间。我们的方法允许采用不同的压缩率，以解码时间换取答案质量。与早期的方法相比，COCOM 可以更有效地处理多个上下文，大大减少了长输入的解码时间。与现有的高效上下文压缩方法相比，我们的方法实现了高达 5.69 美元/次的提速，同时获得了更高的性能。

13.CompAct: Compressing Retrieved Documents Actively for Question Answering

标题:CompAct：为问题解答主动压缩检索到的文档

author:Chanwoong Yoon, Taewhoo Lee, Hyeon Hwang, Minbyul Jeong, Jaewoo Kang

publish:Code available at https://github.com/dmis-lab/CompAct

date Time:2024-07-12

paper pdf:http://arxiv.org/pdf/2407.09014v2

摘要：
检索增强生成支持语言模型通过提供外部语境来加强其事实基础。然而，语言模型在获得大量信息时往往会面临挑战，从而降低其解决问题的效率。上下文压缩通过过滤无关信息来解决这一问题，但目前的方法在现实场景中仍有困难，因为单步方法无法捕捉到关键信息。为了克服这一局限，我们引入了 CompAct，这是一个新颖的框架，它采用主动策略来压缩大量文件，同时不丢失关键信息。我们的实验证明，在多跳问答（QA）基准上，CompAct 的性能和压缩率都有显著提高。CompAct 可灵活地作为具有成本效益的插件模块与各种现成的检索器或阅读器配合使用，实现了极高的压缩率（47 倍）。

14.Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting

标题:推测性 RAG：通过起草加强检索增强生成

author:Zilong Wang, Zifeng Wang, Long Le, Huaixiu Steven Zheng, Swaroop Mishra, Vincent Perot, Yuwei Zhang, Anush Mattapalli, Ankur Taly, Jingbo Shang, Chen-Yu Lee, Tomas Pfister

publish:Preprint

date Time:2024-07-11

paper pdf:http://arxiv.org/pdf/2407.08223v1

摘要：
检索增强生成（RAG）将大型语言模型（LLM）的生成能力与外部知识源相结合，以提供更准确和最新的响应。最近的 RAG 进展侧重于通过迭代 LLM 完善或通过 LLM 的额外指令调整获得自我批判能力来改进检索结果。在这项工作中，我们引入了 “推测式 RAG”–一种利用大型通用 LLM 高效验证由小型精炼专业 LLM 并行生成的多个 RAG 草案的框架。每个草案都由检索到的文档的一个不同子集生成，从而为证据提供了不同的视角，同时减少了每个草案的输入标记数。这种方法增强了对每个子集的理解，并减轻了长语境中潜在的立场偏差。我们的方法将起草工作委托给较小的专家 LM，由较大的通才 LM 对草稿进行一次验证，从而加快了 RAG 的速度。广泛的实验证明，在 TriviaQA、MuSiQue、PubHealth 和 ARC-Challenge 基准上，Speculative RAG 实现了最先进的性能，并减少了延迟。与 PubHealth 上的传统 RAG 系统相比，它显著提高了 12.97% 的准确率，同时减少了 51% 的延迟。

15.RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension

标题:RAG 与长语境：检验用于环境审查文件理解的前沿大型语言模型

author:Hung Phan, Anurag Acharya, Sarthak Chaturvedi, Shivam Sharma, Mike Parker, Dan Nally, Ali Jannesari, Karl Pazdernik, Mahantesh Halappanavar, Sai Munikoti, Sameera Horawalavithana

publish:14 pages

date Time:2024-07-10

paper pdf:http://arxiv.org/pdf/2407.07321v1

摘要：
大型语言模型（LLM）已被应用于各个领域的许多研究问题。LLM 的应用之一是为不同领域的用户提供问题解答系统。基于 LLM 的问题解答系统对于用户提出的流行和公共领域（如琐事和文学）的问题的有效性已经达到了可以接受的水平。然而，在传统上需要专业知识的利基领域中，这种有效性还没有得到证实。为此，我们构建了 NEPAQuAD1.0 基准，以评估 Claude Sonnet、Gemini 和 GPT-4 这三种前沿 LLM 在回答美国联邦政府机构根据《国家环境环境法案》（NEPA）编写的环境影响报告中提出的问题时的性能。我们特别测量了法律硕士在不同情境下理解 NEPA 文件中法律、技术和合规相关信息的细微差别的能力。例如，我们通过提供没有任何上下文的问题来测试法律硕士先前掌握的 NEPA 内部知识，并评估法律硕士如何综合长篇 NEPA 文件中的上下文信息来完成提问/回答任务。我们比较了长语境 LLMs 和 RAG 动力模型在处理不同类型问题（如问题解决型、发散型）时的表现。我们的结果表明，无论选择哪种前沿 LLM，RAG 动力模型在答案准确性上都明显优于长语境模型。我们的进一步分析表明，许多模型在回答封闭性问题时的表现要好于发散性问题和解决问题的问题。

16.PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods

标题:PEER：利用多代理框架和调整方法对特定领域任务进行专家研究

author:Yiying Wang, Xiaojing Li, Binzhu Wang, Yueyang Zhou, Han Ji, Hong Chen, Jinshi Zhang, Fei Yu, Zewei Zhao, Song Jin, Renji Gong, Wanqing Xu

date Time:2024-07-09

paper pdf:http://arxiv.org/pdf/2407.06985v2

摘要：
在特定领域的应用中，GPT-4 在精确提示或检索增强生成（RAG）的辅助下显示出显著的潜力，但也面临着性能、成本和数据隐私等关键的三难问题。高性能需要复杂的处理技术，但在复杂的工作流程中管理多个代理往往成本高昂且极具挑战性。为了解决这个问题，我们引入了 PEER（计划、执行、表达、审查）多代理框架。它通过整合精确的问题分解、先进的信息检索、全面的总结和严格的自我评估，将特定领域的任务系统化。考虑到成本和数据隐私问题，企业正在从 GPT-4 等专有模型转向定制模型，在成本、安全性和性能之间取得平衡。我们开发了利用在线数据和用户反馈进行高效模型调整的行业实践。本研究为在特定领域问题解决中应用多代理系统和实施有效的代理调整策略提供了最佳实践指南。我们的实证研究，特别是在金融问题解答领域的研究表明，我们的方法达到了 GPT-4 95.0% 的性能，同时有效地管理了成本并确保了数据隐私。

17.RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models

标题:RULE：医学视觉语言模型中的可靠多模态事实性 RAG

author:Peng Xia, Kangyu Zhu, Haoran Li, Hongtu Zhu, Yun Li, Gang Li, Linjun Zhang, Huaxiu Yao

date Time:2024-07-06

paper pdf:http://arxiv.org/pdf/2407.05131v1

摘要：
最近出现的医学大型视觉语言模型（Med-LVLMs）提高了医疗诊断水平。然而，目前的医学大型视觉语言模型经常会遇到事实问题，生成的回复往往与既定的医学事实不符。利用外部知识的检索增强生成（RAG）可以提高这些模型的事实准确性，但也带来了两大挑战。首先，有限的检索上下文可能无法涵盖所有必要信息，而过度检索则会引入不相关和不准确的参考资料，从而干扰模型的生成。其次，在模型最初做出正确响应的情况下，应用 RAG 可能会导致过度依赖检索到的上下文，从而得出错误的答案。为了解决这些问题，我们提出了由两部分组成的 RULE。首先，我们引入了一种可证明的有效策略，通过校准选择检索语境的数量来控制事实性风险。其次，在过度依赖检索语境导致错误的样本基础上，我们策划了一个偏好数据集来对模型进行微调，平衡其对固有知识和检索语境生成的依赖。我们在三个医疗 VQA 数据集上展示了 RULE 的有效性，事实准确率平均提高了 20.8%。我们在 https://github.com/richard-peng-xia/RULE 上公开发布了我们的基准和代码。

18.Meta-prompting Optimized Retrieval-augmented Generation

标题:元提示优化检索-增强生成

author:João Rodrigues, António Branco

date Time:2024-07-04

paper pdf:http://arxiv.org/pdf/2407.03955v1

摘要：
检索增强型生成依赖于从外部来源检索的内容，以便在下游任务中充分利用大型语言模型的性能。然而，过量的检索内容、可能出现的内容分散或内容超出重点范围的情况最终可能会产生不利影响，而不是增量影响。为了缓解这一问题并改进检索增强生成，我们提出了一种方法，通过元提示优化，在将检索内容纳入提示之前对其进行细化。通过对 StrategyQA 数据集中要求苛刻的多跳问题解答任务进行实证测试，评估结果表明这种方法比没有采用这种方法的类似检索增强系统的性能高出 30% 以上。

19.DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation

标题:DSLR：利用句子级别的重新排序和重构对文档进行精炼，以提高检索增强型生成能力

author:Taeho Hwang, Soyeong Jeong, Sukmin Cho, SeungYoon Han, Jong C. Park

date Time:2024-07-04

paper pdf:http://arxiv.org/pdf/2407.03627v2

摘要：
大型语言模型（LLM）的最新进展大大提高了其在各种自然语言处理（NLP）任务中的性能。然而，由于参数记忆的局限性，大型语言模型在生成非事实性回答时仍有困难。检索增强生成（RAG）系统通过将外部知识与检索模块相结合来解决这一问题。然而，尽管取得了成功，目前的 RAG 系统仍面临着检索失败和 LLM 过滤无关信息能力有限的挑战。因此，在这项工作中，我们提出了 DSLR（使用句子级重新排序和重构的文档细化），这是一个无监督的框架，可将检索到的文档分解为句子，过滤掉不相关的句子，并将其重新构建为连贯的段落。我们在多个开放领域的质量保证数据集上对 DSLR 进行了实验验证，结果表明，与传统的固定大小段落相比，DSLR 显著提高了 RAG 性能。此外，我们的 DSLR 还能在特定但现实的场景中提高性能，而无需额外的训练，从而为在 RAG 系统中完善检索文档提供了有效且高效的解决方案。

20.Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning

标题:利用基于 AST 的排序和模式剪枝改进检索增强型文本到 SQL

author:Zhili Shen, Pavlos Vougiouklis, Chenxin Diao, Kaustubh Vyas, Yuanyi Ji, Jeff Z. Pan

date Time:2024-07-03

paper pdf:http://arxiv.org/pdf/2407.03227v1

摘要：
我们从大型语言模型的角度关注文本到 SQL 的语义解析。在商业数据库模式的规模和商业智能解决方案的可部署性等相关挑战的推动下，我们提出了一种动态检索输入数据库信息并使用抽象语法树为上下文学习选择少量示例的方法。此外，我们还研究了并行语义解析器在多大程度上可用于生成预期 SQL 查询的 $\textit{approximated}$ 版本，以支持我们的检索。我们将这种方法发挥到了极致–我们调整了一个参数少于 5 亿美元的模型，使其成为一个极其高效的近似器，并增强了它以并行方式处理模式的能力。我们将我们的方法应用于单语和跨语言的语义解析基准，结果表明比最先进的基准有了很大改进。综合实验凸显了参与这种检索增强生成设置的模块的贡献，揭示了未来工作的有趣方向。

21.RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

标题:RankRAG：将 LLM 中的上下文排序与检索增强生成统一起来

author:Yue Yu, Wei Ping, Zihan Liu, Boxin Wang, Jiaxuan You, Chao Zhang, Mohammad Shoeybi, Bryan Catanzaro

date Time:2024-07-02

paper pdf:http://arxiv.org/pdf/2407.02485v1

摘要：
大型语言模型（LLM）通常在检索增强生成（RAG）中利用来自检索器的前 k 个上下文。在这项工作中，我们提出了一个新颖的指令微调框架 RankRAG，该框架对单个 LLM 进行指令微调，以实现 RAG 中上下文排序和答案生成的双重目的。特别是，通过在训练混合数据中添加一小部分排名数据，经过指令调整的 LLM 的效果出奇地好，而且优于现有的专家排名模型，包括专门在大量排名数据上经过微调的相同 LLM。为了生成模型，我们将我们的模型与许多强大的基准进行了比较，包括 GPT-4-0613、GPT-4-turbo-2024-0409 和 ChatQA-1.5，后者是一个开源模型，在 RAG 基准上具有最先进的性能。具体来说，在九个知识密集型基准上，我们的 Llama3-RankRAG 明显优于 Llama3-ChatQA-1.5 和 GPT-4 模型。此外，它在生物医学领域的五个 RAG 基准上的表现也与 GPT-4 不相上下，无需对生物医学数据进行指令微调，这证明了它在新领域的超强通用能力。

22.Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation

标题:接地每一句话：利用交错参考索赔生成改进检索增强型 LLM

author:Sirui Xia, Xintao Wang, Jiaqing Liang, Yifei Zhang, Weikang Zhou, Jiaji Deng, Fei Yu, Yanghua Xiao

publish:15 pages,2 figures

date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.01796v1

摘要：
检索增强生成（RAG）已被广泛用于增强知识密集型任务中的大型语言模型（LLM）。最近，归因文本生成（Attributed Text Generation，ATG）引起了越来越多的关注，它提供引文以支持模型在 RAG 中的响应，从而提高 LLM 生成内容的可信度并方便验证。之前的方法主要采用粗粒度归因，链接到段落级参考文献或提供段落级引文。然而，这些方法在可验证性方面仍有不足，并且需要一定的时间成本进行事实核查。本文提出了一种名为 ReClaim（Refer & Claim）的细粒度 ATG 方法，该方法一步步交替生成参考文献和答案。与传统的粗粒度归因不同，ReClaim 允许模型在长式问题解答任务中为每个答案句子添加句子级的细粒度引文。我们的实验包括各种训练和推理方法以及多个 LLM，验证了我们方法的有效性。

23.Retrieval-augmented generation in multilingual settings

标题:多语言环境下的检索增强生成

author:Nadezhda Chirkova, David Rau, Hervé Déjean, Thibault Formal, Stéphane Clinchant, Vassilina Nikoulina

date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.01463v1

摘要：
检索增强生成（RAG）是最近出现的一种很有前途的解决方案，它可以将最新的或特定领域的知识纳入大型语言模型（LLM）并提高 LLM 的事实性，但目前主要是在纯英语环境中进行研究。在这项工作中，我们考虑了多语言环境下的 RAG（mRAG），即用户查询和数据存储为 13 种语言，并研究了构建性能良好的 mRAG 管道需要哪些组件和哪些调整，这些组件和调整可用作未来工作的有力基准。我们的研究结果突出表明，尽管有现成的高质量多语种检索器和生成器，但仍需要针对具体任务的提示工程，以实现用户语言的生成。此外，当前的评估指标需要针对多语言环境进行调整，以考虑命名实体拼写的变化。未来工作中需要解决的主要限制包括非拉丁字母语言中频繁的代码转换、偶尔的流畅性错误、对所提供文档的错误阅读或不相关的检索。我们在 https://github.com/naver/bergen 上发布了 mRAG 基线管道的代码。

24.Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

标题:干草堆摘要：长语境 LLM 和 RAG 系统面临的挑战

author:Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu

date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.01370v1

摘要：
LLM 和 RAG 系统现在已经能够处理数百万个或更多的输入标记。然而，在长语境任务中评估此类系统的输出质量仍然具有挑战性，因为像 “大海捞针”（Needle-in-a-Haystack）这样的任务缺乏复杂性。在这项工作中，我们认为总结可以在此类评估中发挥核心作用。我们设计了一种合成干草堆文档的程序，确保特定的（textit{insights}）在文档中重复出现。然后，“干草堆摘要”（SummHay）任务需要一个系统来处理干草堆，并在给定查询的情况下生成一个摘要，该摘要能识别相关的见解并精确引用源文件。由于我们对哪些见解应出现在干草堆摘要中以及哪些文档应被引用有精确的了解，因此我们实现了一种可高度重复的自动评估，它可以从覆盖面和引用这两个方面对摘要进行评分。我们在两个领域（对话和新闻）生成了干草堆，并对 10 个 LLM 和相应的 50 个 RAG 系统进行了大规模评估。我们的研究结果表明，SummHay 是当前系统面临的一个公开挑战，因为即使是提供了文档相关性甲骨文信号的系统，在联合评分上也比我们估计的人类性能 (56%) 落后 10 多个百分点。如果没有检索器，像 GPT-4o 和 Claude 3 Opus 这样的长语境 LLM 在 SummHay 上的得分会低于 20%。我们表明，SummHay 也可用于研究企业 RAG 系统和长语境模型中的位置偏差。我们希望未来的系统能在 SummHay 上达到甚至超过人类的表现。

25.Searching for Best Practices in Retrieval-Augmented Generation

标题:在检索增强型生成中寻找最佳做法

author:Xiaohua Wang, Zhenghua Wang, Xuan Gao, Feiran Zhang, Yixin Wu, Zhibo Xu, Tianyuan Shi, Zhengyuan Wang, Shizheng Li, Qi Qian, Ruicheng Yin, Changze Lv, Xiaoqing Zheng, Xuanjing Huang

date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.01219v1

摘要：
事实证明，检索增强生成（RAG）技术在整合最新信息、减少幻觉和提高响应质量方面非常有效，尤其是在专业领域。虽然已经提出了许多 RAG 方法，通过依赖查询的检索来增强大型语言模型，但这些方法仍然存在实施复杂和响应时间长的问题。通常情况下，RAG 工作流程涉及多个处理步骤，每个步骤可以以不同方式执行。在此，我们研究了现有的 RAG 方法及其潜在组合，以确定最佳的 RAG 实践。通过大量实验，我们提出了几种兼顾性能和效率的 RAG 部署策略。此外，我们还证明了多模态检索技术可以显著增强视觉输入的问题解答能力，并利用 "检索即生成 "策略加速多模态内容的生成。

26.Learning to Explore and Select for Coverage-Conditioned Retrieval-Augmented Generation

标题:为覆盖条件检索–增强生成学习探索和选择

author:Takyoung Kim, Kyungjae Lee, Young Rok Jang, Ji Yong Cho, Gangwoo Kim, Minseok Cho, Moontae Lee

publish:Work in progress. Resources are available at
https://github.com/youngerous/qtree

date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.01158v1

摘要：
与十亿规模的大型语言模型进行交互时，由于其广泛的参数能力以及检索增强功能，通常会产生长格式的回复。虽然详细的回复提供了对特定主题的深刻见解，但它们经常会产生冗余且不太吸引人的内容，无法满足用户的兴趣。在这项工作中，我们重点研究了查询大纲（即选定的查询序列）在用户请求特定范围信息的情况下（即覆盖条件（ $C^2$ ）情况）所起的作用。为了模拟 $C^2$ 场景，我们构建了 QTree，即 10K 个信息查询集，这些查询集从不同角度对某些主题进行了分解。通过使用 QTree，我们训练了 QPlanner，这是一个 7B 语言模型，可生成遵循覆盖条件查询的定制查询大纲。我们以检索增强生成（RAG）为目标，通过自动和人工评估分析了生成大纲的有效性。此外，实验结果表明，QPlanner 通过对齐训练可以进一步提供满足不同用户兴趣的大纲。我们的资源可在 https://github.com/youngerous/qtree 上获取。

27.BERGEN: A Benchmarking Library for Retrieval-Augmented Generation

标题:BERGEN：检索增强生成基准库

author:David Rau, Hervé Déjean, Nadezhda Chirkova, Thibault Formal, Shuai Wang, Vassilina Nikoulina, Stéphane Clinchant

publish:29 pages

date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.01102v1

摘要：
检索增强生成允许利用外部知识增强大型语言模型。由于生成式 LLM 近来大受欢迎，人们提出了许多 RAG 方法，其中涉及大量不同的配置，如评估数据集、集合、度量标准、检索器和 LLM。在比较各种方法和了解管道中每个组件的影响时，不一致的基准测试是一大挑战。在这项工作中，我们研究了为 RAG 系统性评估奠定基础的最佳实践，并介绍了 BERGEN，这是一个用于可重现研究的端到端库，将 RAG 实验标准化。在一项以质量保证为重点的广泛研究中，我们对不同的最先进检索器、reerankers 和 LLM 进行了基准测试。此外，我们还分析了现有的 RAG 指标和数据集。我们的开源库 BERGEN 在 \url{https://github.com/naver/bergen} 下提供。

28.Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese

标题:Face4RAG：中文检索增强生成的事实一致性评估

author:Yunqi Xu, Tianchi Cai, Jiyan Jiang, Xierui Song

date Time:2024-07-01

paper pdf:http://arxiv.org/pdf/2407.01080v2

摘要：
传统的 “检索增强生成”（RAG）中普遍存在的事实不一致错误问题激发了对事实一致性评估（FCE）的研究。尽管早先提出了各种 FCE 方法，但这些方法都是在特定大型语言模型（LLM）生成的数据集上进行评估的。由于没有一个全面的基准，这些 FCE 方法在其他具有不同错误分布甚至是未见错误类型的 LLM 上的表现如何仍有待探索，因为这些方法可能无法检测到其他 LLM 产生的错误类型。为了填补这一空白，我们在本文中提出了第一个独立于底层 LLM 的 RAG 综合 FCE 基准（emph{Face4RAG}）。我们的基准包括一个基于精心设计的事实不一致错误类型学的合成数据集和一个由六种常用 LLM 构建的真实世界数据集，从而能够评估特定错误类型或真实世界错误分布的 FCE 方法。在提出的基准上，我们发现现有的 FCE 方法无法检测逻辑谬误，而逻辑谬误是指答案和检索到的参考文献之间的逻辑结构不匹配。为了解决这个问题，我们进一步提出了一种名为 \emph{L-Face4RAG}的新方法，它采用了逻辑保留答案分解和事实逻辑 FCE 两种新颖的设计。广泛的实验表明，L-Face4RAG 在大量任务中的表现大大优于以前的事实不一致性检测方法，尤其是在其最初灵感来源的 RAG 任务之外。基准和我们提出的方法都是公开的。