论文分享|RAG理论-第四篇-生成

BrownSearch

于 2024-07-15 15:59:06 发布

阅读量416

点赞数 13

分类专栏： NLP/IR知识分享文章标签：人工智能深度学习 nlp 自然语言处理

本文链接：https://blog.csdn.net/weixin_45783724/article/details/140441350

版权

NLP/IR知识分享专栏收录该内容

15 篇文章 0 订阅

订阅专栏

0.前言

本系列以同济大学的检索增强生成（RAG）综述[1]，ACL2023 检索增强语言模型（RALM） Tutorial[2]作为参考材料，讲解RAG的前世今身，包含概述，评估方法，检索器，生成器，增强方法，多模态RAG等内容。

本篇为生成篇，介绍RAG生成器概述和两种生成器优化方法。

1.生成器概述

生成器是RAG的关键组成部分，和传统语言模型不同，RAG中的生成器需要根据检索内容与用户问题组成的上下文，生成连贯流畅的与上下文相关的回复。

2.冻结LLM-检索后处理

大部分冻住LLM的工作依赖于强大的GPT-4模型，利用其全面的内在知识来综合各种检索到的文档信息。然而，这也引发了上下文长度限制和对冗余信息敏感两个问题。针对这些问题，当前方法主要关注检索后处理方法。

检索后处理包括处理、过滤或优化检索器从大型文档数据库中检索到的相关信息，主要目标是提高检索结果质量，使它们与用户的需求或后续任务更紧密地对齐。它可以看作是对检索文档的再处理。常见的操作通常包括信息压缩和重排序。

2.1 信息压缩

PRCA[3]两阶段训练了一个信息压缩器—生成式摘要模型（即利用一个生成器将原文档转换为一个通顺的摘要文档）。第一阶段为上下文抽取阶段，利用领域生成式摘要数据集进行预训练。第二阶段为奖励驱动阶段，将用户查询与文档输入信息抽取器得到优化后的文档，将用户查询与优化后文档拼接输入冻结的LLM，得到输出结果，利用输出结果与标注输出结果间的ROUGE-L分数进行强化学习监督训练，进一步优化信息压缩器。
RECOMP[4]使用对比学习训练了一个信息压缩器—抽取式摘要模型（即用一个编码器判断文档中句子的重要性（分数），将最重要的若干句子拼接在一起得到摘要），每个训练数据点包含1个正例和5个负例。
Filter-Reranker[5]结合了LLM和小语言模型（SLM）各自的优势，SLM作为过滤器，LLM作为重排智能体。先用SLM得到K个可能的标签，再用LLM将SLM得到的K个标签进行重排得到最终结果。这一方法在信息抽取任务上获得了显著提升。

2.2 重排序

[6]使用LLM作为重排序模型，让LLM完成Query Likilihood Models（QLMs），即根据文档生成查询的概率进行排序。此外也可以考虑使用LLM对句子的编码作为精排依据、
BGE-reranker[7]使用一个可以输入提示的跨注意力编码器将查询和文档作为输入，获得两者相关分数。编码器可以直接推理或微调后提升效果。

3.微调LLM

由于输入包含了额外的文档，对于较小模型一般需要进行进一步微调。一般来说RAG中生成器微调方法和LLM的微调策略是一样的。

3.1 通用优化过程

通用优化过程类似LLM的监督微调过程（SFT），需要让语言模型根据输入x（x包含用户提示和示例），预测输出y，使用语言模型交叉熵损失。Self-Mem[8]使用了这一方法，将检索文档（top-1的文档）和输入拼接输入语言模型预测标注输出。
Self-Mem[8]使用了两种微调范式—联合编码器（将用户输入和文档组合成完整上下文输入一个编码器，再用一个解码器解码），双流编码器（将用户输入和文档分别用两个编码器编码，再分别作为解码器的QK和V进行解码），有趣的是，联合编码器效果更好。

3.2 利用对比学习

在为语言模型准备训练数据时，通常会创建输入-输出文本对。这种传统的方法可能会导致曝光偏差，即模型只针对个别的、正确的输出示例进行训练，导致模型对训练集中的特定例子过拟合，降低模型在各种上下文中泛化的能力。为了解决曝光偏差，SURGE[9]提出使用图对比学习，强制让模型根据知识图谱中相关内容生成合理且连贯的回复。
对于需要结构化数据的检索任务，SANTA[10]提出三元组训练策略来有效表示结构和语义的细微语义差别。第一阶段使用对比学习进行检索器训练。随后，生成器的初步训练阶段采用对比学习将结构化数据与其非结构化文档描述对齐。在生成器训练的进一步阶段，使用实体掩码预测任务作为优化目标让模型读懂实体。

大家好，我是NLP研究者BrownSearch，如果你觉得本文对你有帮助的话，不妨点赞或收藏支持我的创作，您的正反馈是我持续更新的动力！如果想了解更多LLM/检索的知识，记得关注我！

4.引用

[1]Gao Y, Xiong Y, Gao X, et al. Retrieval-augmented generation for large language models: A survey[J]. arXiv preprint arXiv:2312.10997, 2023.

[2]Asai A, Min S, Zhong Z, et al. Retrieval-based language models and applications[C]//Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 6: Tutorial Abstracts). 2023: 41-46.

[3]Yang H, Li Z, Zhang Y, et al. PRCA: Fitting Black-Box Large Language Models for Retrieval Question Answering via Pluggable Reward-Driven Contextual Adapter[C]//The 2023 Conference on Empirical Methods in Natural Language Processing. 2023.

[4]Xu F, Shi W, Choi E. Recomp: Improving retrieval-augmented lms with compression and selective augmentation[J]. arXiv preprint arXiv:2310.04408, 2023.

[5]Ma Y, Cao Y, Hong Y C, et al. Large language model is not a good few-shot information extractor, but a good reranker for hard samples![J]. arXiv preprint arXiv:2303.08559, 2023.

[6]Zhuang S, Liu B, Koopman B, et al. Open-source large language models are strong zero-shot query likelihood models for document ranking[J]. arXiv preprint arXiv:2310.13243, 2023.

[7]https://huggingface.co/BAAI/bge-reranker-large

[8]Cheng X, Luo D, Chen X, et al. Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory[J]. arXiv preprint arXiv:2305.02437, 2023.

[9]Kang M, Kwak J M, Baek J, et al. Knowledge Graph-Augmented Language Models for Knowledge-Grounded Dialogue Generation[J]. arXiv preprint arXiv:2305.18846, 2023.

[10]Li X, Liu Z, Xiong C, et al. Structure-Aware Language Model Pretraining Improves Dense Retrieval on Structured Data[J]. arXiv preprint arXiv:2305.19912, 2023.