论文：Open Domain Question Answering with A Unified Knowledge Interface翻译笔记（开放领域问答与统一知识接口）-CSDN博客

本文链接：https://blog.csdn.net/weixin_56242678/article/details/137120673

在这里插入图片描述

论文标题：开放领域问答与统一知识接口

论文链接：https://arxiv.org/abs/2110.08417
arXiv:2110.08417v2 [cs.CL] 19 Mar 2022

摘要

检索阅读器框架在开放领域问答（ODQA）中非常受欢迎，因为它能够利用显式知识。尽管之前的研究试图通过将结构化的知识扩展到文本之外来增加知识覆盖范围，但通过统一接口访问异构的知识源仍然是一个未解决的问题。虽然数据到文本生成有潜力作为数据和文本的通用接口，但它在下游任务中的可行性仍然很大程度上未知。在这项工作中，我们填补了这个差距，并将数据到文本方法作为一种为ODQA编码结构化知识的手段。具体来说，我们提出了一种在数据和文本上进行开放领域问答（ODQA）的口语化-检索器-阅读器框架，其中使用了来自维基百科的表格口语化和来自维基数据的图表作为增强知识源。我们证明了我们的统一数据和文本问答系统（UDT-QA）可以有效地从扩展的知识索引中受益，从而在文本基础线上获得巨大优势。值得注意的是，我们的方法在自然问题上设立了单一模型的最先进水平。此外，我们的分析表明，在适应和热交换设置下，用于答案推理的口头知识更受欢迎。

1 简介

预训练语言模型（Devlin等人，2019；Brown等人，2020）已被证明在参数中隐式存储某些知识（语言学或事实），部分解释了其在下游任务中的卓越泛化能力。（Manning等人，2020；Petroni等人，2019；Roberts等人，2020）。然而，除了众所周知的幻觉问题外，通过文本的语言建模目标学到的隐含知识在回答开放领域问题时，很难反映出文本和结构化数据中的最新知识。为了克服这个问题，最近关于开放领域问答（ODQA）的研究主要集中在半参数方法（Karpukhin等人，2020年；Guu等人，2020年）。在这种方法中，预训练的语言模型可以利用外部明确的知识来源进行推理。例如，在检索器-阅读器框架（闵等，2021年等人）中，阅读器通过依据检索器提供的相关证据来生成答案，而检索器则是与显式知识源（维基百科文本段落）的接口。在这项工作中，我们关注的是超越文本知识的半参数化方法。具体来说，我们感兴趣的问题是：我们能否在一个包含数据和文本的真实异构知识源上开发一个实用的统一接口？

最近的检索器-阅读器模型（Oguz等人，2020；Agarwal等人，2021）已经证明，通过在文本知识源中加入更多结构化数据是有益的。然而，在Agarwal等人（2021）的研究中只考虑了知识库（KB），这限制了他们的方法应用于其他结构化数据的能力。在（Oguz等人，2020）中，表格和KB三元组都被简单地序列化为阅读器的输入，但是针对不同情况需要使用不同的检索器。在此，我们提出了一种半参数化框架——UDT-QA，它提供了一个数据和文本的ODQA（开放领域的问答）的统一表示和模型。其主要思想是在检索器中增加一个数据到文本的转换器（verbalizer），以便访问异构的知识源，即从WikiData获取KB图形，以及从Wikipedia获取表格和段落。

鉴于其在为数据和文本提供通用接口方面的潜力，数据到文本生成越来越受欢迎（Gardent等，2017；Parikh等，2020；Nan等，2021），并开发了各种方法来将结构化知识转换成自然语言（Wang等，2020；Ribeiro等，2020；Chen等，2020b）。尽管如此，大多数现有工作只关注内在评估，即通过诸如BLEU（Papineni等人，2002）等指标来衡量生成文本的质量，而对其在下游任务中的实用性了解甚少。此外，目前尚不清楚单一的数据到文本模型是否能够有效地对异构结构化数据进行口头表达。为了解决这个问题，我们开发了一种新颖的数据到文本生成范式。我们引入了数据过滤和束选择来最大化输入信息的忠实度。为了弥补目标领域内缺乏数据的问题，我们进一步提出了一种迭代训练方法，通过从目标领域中选择高质量输出来扩充现有的数据到文本训练集。通过这个 verbalizer，我们把来自维基百科的所有表格（比 Oguz 等人于2020年提供的多10倍）以及从维基数据提取的子图和维基百科文本段落作为开放领域的问答模型的知识来源。

我们首先使用内在指标在DART（Nan等人，2021）上验证我们的数据到文本方法，并在目标开放领域问答数据上进行额外的忠实度评估。我们证明，我们的数据到文本方法可以在不牺牲太多内在指标的情况下有效提高目标领域的忠实度指标。为了进一步评估端到端的有效性，我们使用最近的最先进的（SOTA）检索器-阅读器流水线在ODQA任务上对UDT-QA进行实验，包括DPR（Karpukhin等人，2020年）和UnitedQA（Cheng等人，2021b）。与以前的工作一致，我们的结果也表明，额外的知识源对ODQA有益。值得注意的是，我们发现与原始格式（线性化）相比，读者更喜欢口头化的知识，特别是当结构化数据大小与文本相当时，这会导致更显著的改进。总的来说，UDT-QA比纯文本基线有显著的提升，并且在自然问题（NQ）（Kwiatkowski等人，2019年）和网络问题（WebQ）（Berant等人，2013年）上与更复杂的方法具有竞争力。特别是UDT-QA在NQ的单模型开放书本设置下取得了新的SOTA。

2 UDT-QA概述

本节介绍了我们用于数据和文本ODQA的UDT-QA框架的整体流程（图1）。我们的方法与流行的检索器-阅读器ODQA系统（Min等，2021年及其他人）的主要区别在于使用数据到文本的口头化器（第3部分）将结构化数据转换为自然语言文本，即虚拟文档，作为通用知识源。在这里，我们考虑两种类型的结构化知识（第4.2节）——表格和KB子图。在对结构化知识进行表述后，后续的流程包括一个DPR检索器和一个UnitedQA-E阅读器用于答案推断。由于检索器和阅读器不是本工作的主要关注点，我们仅简要介绍它们如下。
在这里插入图片描述

图1：基于口头表达-检索-阅读器流程的UDT-QA概述。

DPR检索器（Karpukhin等人，2020年）是一个双编码模型，包括问题编码器和上下文编码器，用于数据和文本检索。按照以前的研究（Karpukhin 等人，2020年；Oguz 等人，2020年），我们使用无大小写的BERT-base（Devlin 等人，2019年）模型作为编码器，其中[CLS]标记表示被用作文档/问题向量。在训练过程中，使用正负两对（问题，上下文）来更新模型。在推理时，整个文档索引通过上下文编码器进行编码，然后利用编码后的问题向量检索与之相关性最高的文档。

UnitedQA-E（Cheng等，2021b）是一个基于ELECTRA（Clark等，2020）的提取式阅读器，通过增强目标（Cheng等，2021a，2020）进行答案推断。在这里，一个问题和一个支持段落对被联合编码为神经文本表示。这些表示被用来计算可能的答案开始和结束位置的分数，然后用于计算可能答案跨度的概率。最后，根据从整个支持段落集中所有可能的答案跨度的聚合来计算答案字符串的概率。

3 Verbalizer：数据到文本生成

在这里，我们正式描述了本文开发的数据到文本模型，包括输入格式（第3.1节）和适应性问答（第3.2节）。

3.1 输入格式

给定一个结构化数据输入D，数据到文本生成器G的目标是生成一个自然语言段落P，该段落真实地描述了D中呈现的信息。在文献中，结构化数据输入可以是三元组的形式（Nan等人，2021），是从表格中提取的一些突出显示的单元格（Parikh等人，2020）或整个表格（Chen等人，2020a）。相应地，P可以是D的一个简单的表面形式的表达（例如，当D是一个三元组集