论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing...

题目翻译:使用信息最大化分层条件采用可变自动编码器从上下文中生成不同且信息一致的QA对
作者: Dong Bok Lee, Seanie Lee, Woo Tae Jeong, Donghwan Kim, Sung Ju Hwang

点击论文下载地址

摘要

问答(QA)中最关键的挑战之一是标签数据的稀缺性,因为获取带有人工注释的目标文本域的问题答案(QA)对非常昂贵。解决该问题的另一种方法是使用来自问题上下文或大量非结构化文本(例如Wikipedia)的自动生成的有质量的问答对。在这项工作中,我们提出了一种分层的条件变分自动编码器(HCVAE),用于在给定非结构化文本作为上下文的情况下生成QA对,同时最大化所生成的QA对之间的相互信息以确保其一致性。通过仅使用生成的QA对(基于QA的评估)评估QA模型(基于BERT的性能)或同时使用生成的和评估的QA模型(基于BERT的)的性能,我们在多个基准数据集上验证了我们的信息最大化分层条件变分自动编码器(Info- HCVAE)。人工标记的配对(半监督学习),以针对最新的基线模型进行训练。结果表明,我们的模型在两个任务的所有基线上均获得了令人印象深刻的性能提升,仅使用了一部分数据进行了训练
贡献:

  1. 提出了一种新颖的分层变体框架,用于从单个上下文生成不同的QA对,据我们所知,这是第一个用于问题-答案对生成(QAG)的概率生成模型。
  2. 提出了一个InfoMax规则化器,该规则化器通过最大化生成的QA对之间的相互信息来有效地增强它们之间的一致性。 这是解决QAG的QA对之间一致性的一种新颖方法。
  3. 通过完全使用生成的QA对(基于QA的评估)训练新模型,或同时使用真实的和生成的QA对(半监督QA),在几个基准数据集上评估我们的框架。 我们的模型在两项任务上均实现了令人印象深刻的性能,大大优于现有的QAG基准。

1介绍

提取式问答(QA)是自然语言理解的最基本,最重要的任务之一。由于深度神经网络的复杂性不断提高,以及在大规模语料库上预先训练的语言模型中知识转移的使用,最新的质量保证模型已经在多个基准数据集上达到了人类水平的绩效。但是,对于大规模数据质量检查数据集的可用性,对于最近的数据驱动模型的成功也至关重要。要将最新的质量检查模型部署到实际应用中,我们需要构建具有大量质量检查对的高质量数据集以对其进行训练;然而,这将是昂贵的,需要大量的人力和时间。问题生成(QG)或问题答案对生成(QAG)是克服此数据短缺挑战的一种流行方法。最近的一些作品借助半无监督的学习,通过利用大量未标记的文本(例如Wikipedia)借助QG系统生成合成的QA对。但是,现有的QG系统忽略了一个重要的问题,即从包含非结构化文本的上下文中生成QA对本质上是一对多的问题。已知序列到序列模型可以生成通用序列,而不会产生太大的变化,因为它们采用最大似然估计进行训练。对于QAG,这是次优的选择,因为提供给模型的上下文通常包含更丰富的信息,可以利用这些信息来生成多个QA对。
为了解决上述问题,我们提出了一种用于QA对生成的新型概率深度生成模型。具体来说,我们的模型是一个分层的条件变分自编码器(HCVAE),具有两个独立的潜在空间,用于根据上下文条件进行问答,其中答案潜在空间还位于问题潜在空间上。在生成过程中,此分层条件VAE首先通过从两个潜在空间中进行采样来生成给定上下文的答案,然后再生成给定答案和上下文的问题。这种概率方法使模型可以每次针对上下文的不同部分生成不同的QA对。
QG任务的另一个关键挑战是确保问题和相应答案之间的一致性,因为它们在语义上是相互依赖的,以便从给定答案和上下文中可以回答问题。在本文中,我们通过最大化生成的QA对之间的互信息(Belghazi等人,2018; Hjelm等人,2019; Yeh和Chen,2019)解决这个一致性问题。我们凭经验验证了所提出的相互信息最大化极大地改善了QA对的一致性。结合层次CVAE和InfoMax正则化工具,我们提出了一种新颖的概率生成QAG模型,我们将其称为信息最大化层次条件变分自动编码器(Info-HCVAE)。即使在很短的时间内,我们的Info-HCVAE也会生成多样且一致的QA对(请参见表1)。
但是,我们应该如何定量测量生成的质量检查对的质量?文本生成的流行评估指标(例如BLEU,ROUGE,METEOR)只能说明生成的QA对与文本生成的相似程度。真实(GT)质量检查对,并且与它们的实际质量没有直接关系。因此,我们使用了由Zhang和Bansal(2019)提出的基于QA的评估(QAE)指标,该指标可衡量生成的QA对与GT QA对的分布的匹配程度。然而,在已经有GT标签的半监督学习环境中,我们需要不同于GT QA对的新颖QA对,才能使附加的QA对真正有效。因此,我们提出了一种新颖的度量标准,反向QAE(R-QAE),如果生成的QA对是新颖且多样化的,则该度量很低。我们在SQuAD v1.1,自然问题和TriviaQA数据集上通过QAE和R验证了我们的QAG模型。 -QAE使用BERT-base(Devlin et al。,2019)作为QA模型。我们的QAG模型获得了较高的QAE和较低的R-QAE,并且在使用少量上下文的情况下,其性能远远超过了最新的基准。使用SQuAD作为标记数据集的三个数据集的半监督QA的进一步实验结果表明,我们的模型相对于最新的基线取得了显着改善。 EM中的Trivia质量检查)。
效果图

2相关工作

问题和问题答案对生成

有关问题生成(QG)的早期工作大多采用基于规则的方法。但是,近来,基于编码器-解码器的神经体系结构优于基于规则的方法,因此受到欢迎。其中一些使用段落级信息作为附加信息。强化学习是一种训练神经QG模型的流行方法,其中奖励被定义为评估指标或QA准确性/可能性。最先进的QG模型使用预训练的语言模型。基于上下文的问题答案对生成(QAG)是我们的主要目标,这是一个相对较少探索的主题,仅通过一些最新著作来解决。据我们所知,我们是第一个为端到端QAG提出概率生成模型的人。 Yao等人(2018)将VAE用于QG,但他们没有解决QAG。此外,我们通过使用InfoMax正则化器最大化他们之间的相互信息来有效地解决QA对一致性问题(Belghazi等人,2018; Hjelm等人,2019; Yeh和Chen,2019),这是我们工作的另一贡献。

QG的半监督质量检查

借助QG模型,可以以半监督学习的方式训练QA模型,以提高性能。 Tang等人(2017)应用双重学习对未标记的数据集进行联合QA和QG训练。 Yang等人(2017)和Tang等人(2018)在GAN框架中训练了QG和QA(Goodfellow等人,2014)。 Sachan和Xing(2018)提出了课程学习,以监督QG模型,从而逐步为QA模型生成难题。 Dhingra等人(2018)引入了一种Cloze风格的QAG方法来预训练QA模型。 Zhang and Bansal(2019)建议通过答案可能性来滤除低质

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值