论文解读:Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing...

题目翻译:使用信息最大化分层条件采用可变自动编码器从上下文中生成不同且信息一致的QA对
作者: Dong Bok Lee, Seanie Lee, Woo Tae Jeong, Donghwan Kim, Sung Ju Hwang

点击论文下载地址

摘要

问答(QA)中最关键的挑战之一是标签数据的稀缺性,因为获取带有人工注释的目标文本域的问题答案(QA)对非常昂贵。解决该问题的另一种方法是使用来自问题上下文或大量非结构化文本(例如Wikipedia)的自动生成的有质量的问答对。在这项工作中,我们提出了一种分层的条件变分自动编码器(HCVAE),用于在给定非结构化文本作为上下文的情况下生成QA对,同时最大化所生成的QA对之间的相互信息以确保其一致性。通过仅使用生成的QA对(基于QA的评估)评估QA模型(基于BERT的性能)或同时使用生成的和评估的QA模型(基于BERT的)的性能,我们在多个基准数据集上验证了我们的信息最大化分层条件变分自动编码器(Info- HCVAE)。人工标记的配对(半监督学习),以针对最新的基线模型进行训练。结果表明,我们的模型在两个任务的所有基线上均获得了令人印象深刻的性能提升,仅使用了一部分数据进行了训练
贡献:

  1. 提出了一种新颖的分层变体框架,用于从单个上下文生成不同的QA对,据我们所知,这是第一个用于问题-答案对生成(QAG)的概率生成模型。
  2. 提出了一个InfoMax规则化器,该规则化器通过最大化生成的QA对之间的相互信息来有效地增强它们之间的一致性。 这是解决QAG的QA对之间一致性的一种新颖方法。
  3. 通过完全使用生成的QA对(基于QA的评估)训练新模型,或同时使用真实的和生成的QA对(半监督QA),在几个基准数据集上评估我们的框架。 我们的模型在两项任务上均实现了令人印象深刻的性能,大大优于现有的QAG基准。

1介绍

提取式问答(QA)是自然语言理解的最基本,最重要的任务之一。由于深度神经网络的复杂性不断提高,以及在大规模语料库上预先训练的语言模型中知识转移的使用,最新的质量保证模型已经在多个基准数据集上达到了人类水平的绩效。但是,对于大规模数据质量检查数据集的可用性,对于最近的数据驱动模型的成功也至关重要。要将最新的质量检查模型部署到实际应用中,我们需要构建具有大量质量检查对的高质量数据集以对其进行训练;然而,这将是昂贵的,需要大量的人力和时间。问题生成(QG)或问题答案对生成(QAG)是克服此数据短缺挑战的一种流行方法。最近的一些作品借助半无监督的学习,通过利用大量未标记的文本(例如Wikipedia)借助QG系统生成合成的QA对。但是,现有的QG系统忽略了一个重要的问题,即从包含非结构化文本的上下文中生成QA对本质上是一对多的问题。已知序列到序列模型可以生成通用序列,而不会产生太大的变化,因为它们采用最大似然估计进行训练。对于QAG,这是次优的选择,因为提供给模型的上下文通常包含更丰富的信息,可以利用这些信息来生成多个QA对。
为了解决上述问题,我们提出了一种用于QA对生成的新型概率深度生成模型。具体来说,我们的模型是一个分层的条件变分自编码器(HCVAE),具有两个独立的潜在空间,用于根据上下文条件进行问答,其中答案潜在空间还位于问题潜在空间上。在生成过程中,此分层条件VAE首先通过从两个潜在空间中进行采样来生成给定上下文的答案,然后再生成给定答案和上下文的问题。这种概率方法使模型可以每次针对上下文的不同部分生成不同的QA对。
QG任务的另一个关键挑战是确保问题和相应答案之间的一致性,因为它们在语义上是相互依赖的,以便从给定答案和上下文中可以回答问题。在本文中,我们通过最大化生成的QA对之间的互信息(Belghazi等人,2018; Hjelm等人,2019; Yeh和Chen,2019)解决这个一致性问题。我们凭经验验证了所提出的相互信息最大化极大地改善了QA对的一致性。结合层次CVAE和InfoMax正则化工具,我们提出了一种新颖的概率生成QAG模型,我们将其称为信息最大化层次条件变分自动编码器(Info-HCVAE)。即使在很短的时间内,我们的Info-HCVAE也会生成多样且一致的QA对(请参见表1)。
但是,我们应该如何定量测量生成的质量检查对的质量?文本生成的流行评估指标(例如BLEU,ROUGE,METEOR)只能说明生成的QA对与文本生成的相似程度。真实(GT)质量检查对,并且与它们的实际质量没有直接关系。因此,我们使用了由Zhang和Bansal(2019)提出的基于QA的评估(QAE)指标,该指标可衡量生成的QA对与GT QA对的分布的匹配程度。然而,在已经有GT标签的半监督学习环境中,我们需要不同于GT QA对的新颖QA对,才能使附加的QA对真正有效。因此,我们提出了一种新颖的度量标准,反向QAE(R-QAE),如果生成的QA对是新颖且多样化的,则该度量很低。我们在SQuAD v1.1,自然问题和TriviaQA数据集上通过QAE和R验证了我们的QAG模型。 -QAE使用BERT-base(Devlin et al。,2019)作为QA模型。我们的QAG模型获得了较高的QAE和较低的R-QAE,并且在使用少量上下文的情况下,其性能远远超过了最新的基准。使用SQuAD作为标记数据集的三个数据集的半监督QA的进一步实验结果表明,我们的模型相对于最新的基线取得了显着改善。 EM中的Trivia质量检查)。
效果图

2相关工作

问题和问题答案对生成

有关问题生成(QG)的早期工作大多采用基于规则的方法。但是,近来,基于编码器-解码器的神经体系结构优于基于规则的方法,因此受到欢迎。其中一些使用段落级信息作为附加信息。强化学习是一种训练神经QG模型的流行方法,其中奖励被定义为评估指标或QA准确性/可能性。最先进的QG模型使用预训练的语言模型。基于上下文的问题答案对生成(QAG)是我们的主要目标,这是一个相对较少探索的主题,仅通过一些最新著作来解决。据我们所知,我们是第一个为端到端QAG提出概率生成模型的人。 Yao等人(2018)将VAE用于QG,但他们没有解决QAG。此外,我们通过使用InfoMax正则化器最大化他们之间的相互信息来有效地解决QA对一致性问题(Belghazi等人,2018; Hjelm等人,2019; Yeh和Chen,2019),这是我们工作的另一贡献。

QG的半监督质量检查

借助QG模型,可以以半监督学习的方式训练QA模型,以提高性能。 Tang等人(2017)应用双重学习对未标记的数据集进行联合QA和QG训练。 Yang等人(2017)和Tang等人(2018)在GAN框架中训练了QG和QA(Goodfellow等人,2014)。 Sachan和Xing(2018)提出了课程学习,以监督QG模型,从而逐步为QA模型生成难题。 Dhingra等人(2018)引入了一种Cloze风格的QAG方法来预训练QA模型。 Zhang and Bansal(2019)建议通过答案可能性来滤除低质量的综合问题。尽管我们专注于本文中的可回答设置,但最近很少有作品解决不可回答的设置。 Zhu等人(2019)使用神经网络将可解决的问题编辑为无法回答的问题,并执行半监督质量检查。 Alberti等人(2019)和Dong等人(2019)使用启发式方法将生成的问题转换为无法回答的问题,并根据EM或F1过滤或替换相应的答案。

变分自动编码器

变分自动编码器(VAE)(Kingma and Welling,2014)是概率生成模型,用于各种自然语言理解任务,包括语言建模(Bowman等,2016),对话生成(Serban等, 2017; Zhao等人,2017b; Park等人,2018; Du等人,2018; Qiu等人,2019),以及机器翻译(Zhang等人,2016; Su等人,2018; Deng 等,2018)。 在这项工作中,我们提出了一个带有InfoMax正则化的新型分层条件VAE框架,用于生成一对高度一致性的样本。

3方法

我们的目标是生成多样化且具有一致性的QA对,以解决复杂的QA任务中的数据短缺难题。形式上,给定一个包含M个令牌的上下文c,c =(c1,…,cM),我们要生成QA对(x,y),其中x =(x1,…,xN)是包含 N个令牌,y =(y1,…,yL)是包含L个令牌的对应答案。我们的目标是通过学习问答的条件联合分布来解决QAG任务,其中给定上下文p(x,y | c),我们可以从中采样QA对:
(x,y)〜p(x,y | c)
我们用概率深度生成模型估计p(x,y | c),下面将对其进行描述。

3.1分层条件VAE

我们建议使用可变自动编码器(VAE)框架近似未知条件联合分布p(x,y | c)。 但是,我们没有直接为问题和答案学习共同的潜在空间,而是在具有条件的独立VAE框架的分层条件VAE框架中对p(x,y | c)进行建模,如下所示:
在这里插入图片描述
其中zx和zy分别是问题和答案的隐变量,而pψ(zx | c)和pψ(zy | zx,c)是遵循各向同性高斯分布和分类分布的条件先验条件(图1-(a))。 我们分解问题和答案的潜在空间,因为答案始终是上下文c的有限范围,可以通过分类分布很好地建模,而连续的潜在空间是更合适的问题选择,因为可能存在单一上下文中无限的有效问题。 此外,我们设计了QA联合分配的双向依赖流。通过利用层次结构,我们使答案隐变量依赖于pψ(zy | zx,c)中的问题隐变量,并通过对问题x〜pθ(x | zx,y,c)进行采样来实现反向依赖 。 然后,我们使用变化后验qφ(•)使证据下界(ELBO)最大化,如下所示(完整的推导在附录A中提供):
在这里插入图片描述
其中θ,φ和ψ分别是生成网络,后网络和先验网络的参数。 我们将此模型称为“分层条件变体自动编码器”(HCVAE)框架。 图2显示了我们的HCVAE的定向图形模型。 生成过程如下:

  1. 样本问题L.V.:zx〜pψ(zx | c)
  2. 样本答案L.V.:zy〜pψ(zy | zx,c)
  3. 生成答案:y〜pθ(y | zy,c)
  4. 生成问题:x〜pθ(x | zx,y,c)
    在这里插入图片描述
    在这里插入图片描述

嵌入

对于后验网络和先验网络,我们使用BERT(Devlin等人,2019)的预训练词嵌入网络,而整个BERT被用作生成网络的上下文化词嵌入模型。对于答案编码,我们使用BERT的二进制令牌类型ID。
具体来说,我们将所有上下文标记都编码为0,但作为答案范围一部分的标记(图1-(a)或-(c)中突出显示的上下文词)被编码为1s。然后,我们将单词令牌ID,令牌类型ID和位置ID的序列输入到嵌入层中,以对可感知答案的上下文进行编码。我们会在训练中填入HCVAE中的所有嵌入层。

先验网络

我们使用两个不同的条件先验网络pψ(zx | c),pψ(zy | zx,c)对上下文相关的先验模型进行建模(图1-(a)中的虚线)。为了获得pψ(zx | c)的各向同性高斯N(µ,σ2I)的参数,我们使用双向LSTM(Bi-LSTM)将上下文的词嵌入编码为隐藏的表示形式,然后将它们放入多层感知器(MLP)。我们根据分类分布Cat(π)对pψ(zy | zx,c)进行建模,方法是根据zx和使用另一个MLP的上下文的隐藏表示来计算参数π。

后验网络

我们使用两个条件后验网络qφ(zx | x,c),qφ(zy | zx,y,c)来接近问题x和y的潜在变量的真实后验分布。我们使用两个Bi-LSTM编码器,根据给定的词嵌入,输出问题和上下文的隐藏表示。然后,我们将这两个隐藏的表示形式馈入MLP,以获得高斯分布的参数μ’和σ’ (图1-(a)的右上角)。由于随机采样过程zx〜qφ(zx | x,c)是不可微的,因此我们使用重新参数化技巧(Kingma and Welling,2014)来训练带有反向传播的模型。我们使用另一个Bi-LSTM来将单词答案上下文的单词嵌入到隐藏表示中进行编码。然后,我们将隐藏的表示形式和zx馈入MLP以计算参数π。分类分布(图1-(a)的右下角)。我们使用带有gumbel-softmax的分类重新参数化技巧通过样本离散潜变量进行反向传播。

答案生成

网络由于我们考虑提取QA,因此我们可以将pθ(y | zy,c)分解为pθ(ys | zy,c)和pθ(ye | zy,c),其中ys和ye是坐标的开始和结束位置答案范围(图1-(b)中突出显示的单词)。为了获得两者的MLE估计量,我们首先将上下文c编码为Ec = {ec 1,… ,ec M}的上下文化词嵌入与预先训练的BERT。我们使用启发式匹配层(Mou et al。,2016)和Bi-LSTM计算上下文和隐变量zy的最终隐藏表示:
在这里插入图片描述
其中zy是线性变换的,并且H∈Rdy×M是最终的隐藏表示。然后,我们将H馈入两个单独的线性层以预测ys和ye。

问题产生网络

我们主要通过采用基准来设计QG网络的编解码器架构(Zhao等人,2018; Zhang和Bansal,2019)。对于编码,我们使用预训练的BERT将特定于答案的上下文编码为上下文词嵌入,然后使用两层Bi-LSTM将其编码为隐藏表示(图1-(c))。我们对隐藏的表示采用门控的自我注意机制(Wang等,2017),以更好地捕获上下文中的长期依赖关系,以获得新的隐藏表示ˆH∈Rdx×M。解码器是两层LSTM,它接收潜在变量zx作为初始状态。它使用注意力机制(Luong et al。,2015),使用第j个解码器隐藏表示dj∈Rdx(图1-(c))在每个解码步骤将ˆH动态聚合到sj的上下文向量中。
然后,我们将dj和sj输入到具有最大输出激活的MLP中(Goodfellow等,2013),以计算最终的隐藏表示ˆdj,如下所示:
在这里插入图片描述
其中zx被线性变换ex是第j 个问题词的嵌入。词汇表上的概率向量计算为p(xj | x <j,zx,y,c)= softmax(Weˆdj)。我们初始化权重矩阵We作为预训练词嵌入矩阵,并在训练过程中对其进行修复。此外,我们使用复制机制,以便该模型可以直接从上下文中复制令牌。我们还贪婪地解码问题,以确保所有随机性都来自潜在变量的采样。

3.2一致的QA对生成和互信息最大化

QAG任务最重要的挑战之一就是要在生成的问题及其相应的答案之间保持一致性。 它们在语义上应该是一致的,以便可以根据问题和上下文预测答案。 然而,由于缺乏强制执行这种一致性的机制,神经QG或QAG模型通常会生成与上下文和答案无关的问题(Zhang and Bansal,2019)。 假设一个负责任的QA对具有较高的MI,我们将通过最大化生成的QA对的互信息(MI)来解决此问题。 由于MI的精确计算是难处理的,因此我们使用神经近似法。 虽然存在许多不同的近似值(Belghazi等人,2018; Hjelm等人,2019),但我们使用Yeh和Chen(2019)基于Jensen-Shannon Divergence提出的估计:
在这里插入图片描述

其中EP和EN表示对正面和负面例子的期望。 我们通过对小批量中的QA对进行改组来生成否定示例,这样一个问题便与答案随机相关。 直观地讲,函数g(•)就像一个二进制分类器,用于区分QA对是否来自联合分配。 我们凭经验发现以下g(•)有效地实现了我们一致QAG的目标:
在这里插入图片描述

其中 和 是分别代表问题和答案的描述。 与ELBO结合,最终我们的Info-HCVAE的目标如下: 在这里插入图片描述
其中Θ包括φ,ψ,θ和W的所有参数,而λ控制MI最大化的效果。 在所有实验中,我们始终将λ设置为1。

4 实验

4.1 数据集

Stanford Question Answering Dataset v1.1 (SQuAD)

这是一个阅读理解数据集,包含从一组Wikipedia文章中众包获得的问题,其中每个问题的答案是一段文本或相应阅读文章的跨度。为了公平比较,我们使用Zhang和Bansal(2019)中使用的相同拆分。

Natural Questions (NQ)

该数据集使用Wikipedia文章作为上下文,包含从实际用户查询到搜索引擎的现实问题。我们改编了MRQA共享任务提供的数据集,并将其转换为提取QA格式。我们将原始验证集分为两半,用作我们的实验的验证和测试。

TriviaQA

这是一个包含问题-答案-证据三元组的阅读理解数据集。质量保证对和证据(上下文)文件由Trivia爱好者编写和上传。同样,我们只选择答案是上下文范围的质量检查对。

HarvestingQA

该数据集包含最高排名的10K Wikipedia文章和通过(Du和Cardie,2018)中提出的答案跨度提取和QG系统从中生成的1M合成QA对。我们将此数据集用于半监督学习。

4.2实验装置

实施细节

实施细节在所有实验中,我们使用基于BERT的(d = 768)(Devlin等人,2019)作为QA模型,按照原始论文中的描述设置大多数超参数。对于HCVAE和Info-HCVAE,对于后验,先验和答案生成网络,我们将Bi-LSTM的隐藏维数设置为300,对于问题生成网络的编码器和解码器,将450和900的维数使用。我们将zx的维数设置为50,并将zy定义为10路分类变量zy = {z1,。 。 。 ,z20}。为了训练质量检查模型,我们将模型微调了2个时期。我们使用Adam优化器(Kingma和Ba,2015)训练QA模型和Info-HCVAE,其批处理大小为32,初始学习率分别为5·10-5和10-3。对于半监督学习,我们首先在2个时期的合成数据上对BERT进行预训练,然后在GT数据集上对其进行2个时期的微调。为防止后期崩溃,我们将KL问答题项乘以0.1(Higgins等人,2017)。有关数据集和实验设置的更多详细信息,请参见附录C。
基准 我们针对几个基准对模型的两个变体进行实验:

  1. Harvest-QG:具有神经答案提取系统的基于注意力的神经QG模型(Du和Cardie,2018年)。
  2. Maxout-QG:基于带有门控自我保护的maxout复制机制的神经QG模型(Zhao等,2018),如Zhang和Bansal(2019)所建议的那样,使用BERT作为嵌入词。
    3.语义QG:基于Maxout-QG的神经QG模型,带有语义增强的强化学习(Zhang和Bansal,2019年)。
  3. HCVAE:我们的HCVAE模型没有InfoMax正则化器。
  4. Info-HCVAE:带有InfoMax正则化程序的完整模型。
    对于基线,我们使用答案提取系统提取的相同答案范围(Du和Cardie,2018年)。

4.3定量分析

QAE和R-QAE

生成模型的关键挑战之一是缺乏良好的定量评估指标。我们采用Zhang和Bansal(2019)提出的基于质量检查的评估(QAE)指标来衡量质量检查对的质量。通过首先在综合数据上训练QA模型,然后使用人工注释的测试数据评估QA模型,可以获得QAE。但是,QAE仅测量合成QA对的分布与GT QA对的分布匹配的程度,而没有考虑QA对的多样性。因此,我们提出了基于反向QA的评估(R-QAE),即基于人工注释的QA对训练的QA模型的准确性,并基于生成的QA对进行评估。如果综合数据覆盖的范围大于人工标注的训练数据,则R-QAE会更低。但是,请注意,只有当QAE足够高时,具有低的R-QAE才有意义,因为琐碎的无效问题也可能会产生低的R-QAE。

结果

我们将HCVAE和Info-HCVAE与SQuAD,NQ和TriviaQA上的基线模型进行了比较。我们使用HarvestingQA(Du和Cardie,2018年)的Wikipedia段落的10%进行评估。表2显示,在所有三个数据集上,HCVAE和Info- HCVAE均在QAE方面大幅度超越了所有基线,同时获得的R-QAE显着降低,这表明我们的模型从QAE对中生成了高质量和不同的QA对。给定上下文。此外,Info-HCVAE在很大程度上优于HCVAE,这证明了我们的InfoMax稳压器在执行QA对一致性方面的有效性。
在这里插入图片描述
图3显示了作为QA对数量的函数的准确性。我们的Info-HCVAE使用数量较少的QA对数量就大大超过了所有基线。例如,Info-HCVAE使用12K QA对可获得61.38分,优于使用QA对数量10倍的Semantic-QG。我们还报告了在这里插入图片描述的分数,作为表3中每种方法生成的QA对之间的互信息(MI)的近似估计;我们的Info-HCVAE产生了最大的MI估计值。
在这里插入图片描述
在这里插入图片描述

消融研究

我们进一步进行消融研究,以查看每个模型组件的效果。我们从没有任何潜在变量的模型开始,该模型本质上是确定性的Seq2Seq模型(在表4中表示为基准)。然后,我们先添加问题潜在变量(+ Q潜在变量),再添加答案潜在变量(+ A潜在变量),以分别查看概率潜在变量建模和分层建模的效果。表4中的结果表明,两者对于提高生成的QA对的质量(QAE)和多样性(R-QAE)都是必不可少的。最后,添加InfoMax正则化(+ InfoMax)可通过增强生成的QA对的一致性来进一步提高性能。

4.4定性分析

人工评估

作为定性分析,我们首先对随机选择的100个段落的Info-HCVAE和Maxout-QG生成的QA对进行了成对的人工评估。具体来说,由20位人类法官对随机出现的两组QA对进行盲法质量评估,每对包含2至5对QA。根据生成的QA对与上下文之间的总体质量,多样性和一致性,评估每组QA对。表5中的结果表明,与基线模型生成的QA对相比,我们的Info-HCVAE生成的QA对更加多样化和一致。

一对多QG

为了表明我们的Info-HCVAE可以有效地解决一对多映射问题的生成,我们定性分析了给定上下文和SQuAD验证集中的答案所生成的问题。具体来说,我们使用问题先验网络pψ(zx | c)对问题潜在变量进行多次采样,然后用答案将其馈送到问题生成网络pθ(x | zx,y,c)。表6中的示例表明,我们的Info-HCVAE在给出答案的情况下会生成各种语义上一致的问题。我们在附录D中提供了更多定性示例。
在这里插入图片描述

潜在空间插值

为了检查Info- HCVAE是否学习有意义的QA对潜在空间,我们定性分析了通过在SQuAD训练集上的两个潜在代码之间进行插值而生成的QA对。 我们首先使用qφ(zx | x,c)的后验网络对来自两个QA对的zx进行编码,然后使用先前的网络pψ(zy | zx,c)从zx的内插值采样zy以生成相应的QA对。 表7表明,所产生的QA对的语义从一个潜伏平稳地过渡到另一潜伏,具有高度的多样性和一致性。 我们在附录D中提供了更多定性示例。
在这里插入图片描述

4.5半监督质量检查

现在,我们在半监督设置下验证模型,在该模型中,模型同时使用地面真实标签和生成的标签来解决质量检查任务,以查看生成的质量检查对是否有助于改善常规设置下的质量检查模型的性能。由于此类由生成的QA对组成的综合数据集不可避免地会包含一些噪声(Zhang和Bansal,2019; Dong等,2019; Alberti等,2019),因此我们通过使用启发式方法替换生成的QA对来进一步完善QA对在人工注释数据上训练的QA模型的预测中,其F1分数低于设定阈值的答案。我们通过SQuAD数据集上的交叉验证为QA对精炼模型选择40.0的阈值,并将其用于实验。有关更多详细信息,请参见附录C。

SQuAD

我们首先使用由我们的模型生成的合成QA对在SQuAD上执行半监督QA实验。对于上下文,我们既使用原始SQuAD(S)数据集中的段落,也使用HarvestingQA数据集(H)中的新段落。使用Info-HCVAE,我们通过从潜在空间(表示为S×10)中采样来生成10个不同的QA对。对于基线,我们使用波束搜索大小为10的Semantic-QG(Zhang和Bansal,2019年)来获得相同数量的QA对。我们还使用HarvestingQA中提供的段落的不同部分(表示为H×10%-H×100%)来生成新的QA对,方法是每个上下文采样一个潜在变量。表8显示,我们的框架将BERT基模型的准确性提高了2.12(EM)和1.59(F1)点,明显优于Semantic-QG。
在这里插入图片描述

NQ和TriviaQA

当我们没有目标数据集的任何标记数据时,我们的模型最有用。为了显示我们的QAG模型在这种情况下的性能,我们仅使用由在SQuAD上训练的模型生成的QA对训练QA模型,然后在目标数据集(NQ和TriviaQA)上对其进行测试。我们从目标数据集的每个上下文中生成多个QA对,从潜在空间中采样一到十次(在表9中用N×1-10或T×1-10表示)。然后,我们使用从两个数据集中生成的QA对,对在SQuAD数据集上预训练的QA模型进行微调。表9显示,随着我们使用更多数量的合成QA对增加训练数据时,QA模型的性能显着提高,大大优于仅在SQuAD上训练的QA模型。但是,由于源数据集和目标数据集之间的分布差异,使用我们的QAG训练的模型仍然远远不如使用人标签训练的模型。
在这里插入图片描述

5 结论

我们提出了一种新颖的概率生成框架,用于根据给定的文本生成多样且一致的问题-答案(QA)对。具体来说,我们的模型使用分层条件变分自动编码器学习问题和答案给定上下文的联合分布,同时通过使用新型InfoMax规则化器最大化生成的QA对之间的相互信息来增强它们之间的一致性。据我们所知,我们是第一个成功的概率QAG模型。我们通过在多个数据集上使用生成的问题训练的基于BERT的QA模型的准确性对模型的QAG性能进行了评估,在此基础上,QA模型大大优于最新的QAG基线(+ 6.59-即使使用较少数量的QA对,也可以达到EM。10.69)。我们进一步验证了我们的半监督质量保证模型,该模型在EM中将SQuAD上基于BERT的质量保证模型的性能提高了2.12,大大超过了最新模型。在未来的工作中,我们计划将QAG模型扩展到元学习框架,以便对各种数据集进行概括。

相关链接汇总

论文下载地址:https://arxiv.org/abs/2005.13837

变分自编码器解析:https://www.cnblogs.com/weilonghu/p/12567793.html

条件变分自编码器(CVAE)及相关论文ELBO推导:https://blog.csdn.net/mch2869253130/article/details/105229613/?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-2

重新参数化技巧:https://zhuanlan.zhihu.com/p/21741426

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值