检索增强文本生成：综述_检索增强生成文献综述-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/139892629

22年2月来自日本NAIST、剑桥大学、香港中文大学和腾讯实验室的综述论文“A Survey on Retrieval-Augmented Text Generation“。

最近，检索增强文本生成引起了计算语言学界越来越多的关注。与传统的生成模型相比，检索增强文本生成具有显着的优势，特别是在许多 NLP 任务中取得了最先进的性能。本文旨在对检索增强文本生成进行综述。首先强调了检索增强生成的通用范式，然后根据不同的任务（包括对话响应生成、机器翻译和其他生成任务）回顾了著名的方法。最后，在最近的方法之上指出了一些有希望的研究方向。

具体来说，在对话响应生成任务中，示例/模板检索作为中间步骤已被证明有益于信息响应的生成（Weston2018; Wu 2019; Cai 2019a/b)。此外，人们对探索知识库和外部文档等不同形式的知识生成越来越感兴趣（Dinan2018；Zhou2018；Lian2019，Li2019；Qin2019；Wu2021；Zhang2021）。在机器翻译任务上，总结了如何用检索的句子（称为翻译记忆库）来改进统计机器翻译（SMT）（Koehn 2003）模型的早期工作（Simard & Isabelle, 2009；Koehn & Senellart，2010），特别是，重点介绍了将翻译记忆库集成到 NMT （neural machine translation）模型中的几种流行方法（Gu 2018；Zhang 2018；Xu 2020；He 2021）。还回顾了检索增强生成在其他生成任务中的应用，例如抽象摘要（Peng 2019）、代码生成（Hashimoto 2018）、释义（Kazemnejad 2020；Su 2021b）和知识密集生成（Lewis 2020b）。

如图是该综述的概览：

添加图片注释，不超过 140 字（可选）

大多数文本生成任务都可以表述为从输入序列 x 到输出序列 y 的映射：y = f(x)。例如，对于对话响应生成，x 和 y 可以是对话历史和相应的响应，对于机器翻译，x 和 y 可以是源语言的文本和目标语言的翻译等等。

先前的大多数研究都从其训练语料库中搜索外部记忆（Song，2016；Gu，2018；Weston，2018）。在推理时，检索到的相关分数较高的示例可视为额外参考，并减少模型在生成过程中的不确定性。这些研究的主要动机是不仅将知识存储在模型参数中，而且还以明确且可访问的形式存储知识，使模型能够在推理过程中重新访问它。

一些研究者还提出从外部数据集中检索相关样本（Su et al.，2021c；Xiao et al.，2021）。在这些研究中，检索池与训练语料库不同，可以进一步提供训练语料库中未包含的附加信息。这对于域自适应和知识更新等应用尤其有益。例如，Khandelwal（2020a）；Zheng（2021a）使用域内数据集作为外部存储器来实现机器翻译的快速域自适应。

前两个来源的一个限制是数据集必须是有监督的数据集，由对齐的输入输出对组成。对于机器翻译，Cai (2021) 提出了一种跨语言检索器，可直接从无监督语料库（即目标target语言的单语语料库）检索目标target句子。主要思想是在密集向量空间中对齐源句子和相应的目标翻译，即在 xr 不存在时对齐 x 和 yr。因此，检索器直接连接源输入和目标翻译之间的点，使目标语言中的单语言数据可以单独用作记忆。

有几种方法可以将检索到的外部记忆集成到生成中。一种直接的方法是数据增强，它通过将来自 {⟨xr, yr⟩} 的展开与原始输入 x 连接起来构建一些增强输入。通过对增强输入进行训练，生成模型隐式地学习如何整合检索的信息。尽管很简单，但这类方法在许多任务中都有效 (Song et al., 2016; Weston et al., 2018; Bulte and Tezcan, 2019)。

另一种集成方法是基于注意机制（Bahdanau et al., 2014）。这种方式的主要思想是采用额外的编码器（在各种架构中）对检索的目标句子进行编码，并通过注意机制集成起来（Cao & Xiong, 2018; Gu, 2018; Bapna & Firat, 2019）。由于注意机制正在成为（Bahdanau, 2014; Vaswani, 2017）许多 NLP 模型中的关键模块，用注意机制集成检索的记忆，成为一种非常自然和有效的方式。

在前两种方法中，下游生成模型会隐式地学习如何从检索的示例中过滤掉不相关甚至有害的信息。也有一些工作试图从检索的记忆中显式地提取有用信息，即骨架提取（Cai et al., 2019a; Wu et al., 2019; Cai et al., 2019b）。例如，一个骨架应该是整个话语的一部分，不相关的内容被屏蔽，而生成模型只在生成过程中集成这个骨架。

大多数现代闲聊对话系统可以分为两类，即基于检索的模型和基于生成的模型。基于检索的模型（Ji et al., 2014; Hu et al., 2014）在收到响应请求时直接从精选对话语料库（即检索池）中复制现有响应。检索的响应通常信息丰富且符合语法，因为是从现实世界的对话中收集的，并且可能经过人工后期编辑。然而，当给定的对话历史与检索池中的对话历史有很大不同时，此类系统表现不佳。另一方面，基于生成的模型（Shang et al., 2015; Vinyals & Le, 2015; Li et al., 2016a）从头开始生成新的话语。这些基于生成的模型在处理未见的对话上下文时具有更好的泛化能力。然而，生成的话语往往比较枯燥和不具信息量（例如，“我不知道”、“我认为是这样”、“我也是”等）（Li et al.，2016a）。

检索增强翻译源自人工翻译场景（Somers，2003）。当从输入源句子 x 翻译 yˆ 时，人工翻译通常使用搜索引擎从双语数据库中检索类似的句子 {⟨xr, yr⟩}。这种称为翻译记忆的技术，有助于提高人工翻译的翻译质量和效率（Dillon & Fraser，2006）。随着机器翻译技术的发展，人们对用翻译记忆改进机器翻译模型的兴趣日益浓厚。主要是统计机器翻译（SMT）和神经机器翻译（NMT）的翻译记忆。

一般来说，SMT 以流水线方式包括三个关键组件，例如短语表提取、参数调整和解码（Koehn，2003；Chiang，2007）。因此，人们做出了很多努力来在每个组件之上使用翻译记忆库 ™。

翻译记忆在神经机器翻译 (NMT) 中得到了广泛的探索。根据检索的参与时间，可以将以前的研究分为两类：1) NMT 模型倾向于在训练阶段如何与检索模型合作；2) NMT 模型仅在推理阶段觉察到检索的数据。

此外，还有：语言建模、摘要、释义生成、文本风格迁移、数据-文本生成。