【标准化流在文本上的应用(一)】Continuous Language Generative Flow

一、论文信息

1 标题

Continuous Language Generative Flow

2 作者

Zineng Tang, Shiyue Zhang, Hyounghun Kim, Mohit Bansal

3 研究机构

美国北卡罗来纳大学教堂山分校(UNC Chapel Hill)

4 发布刊物

2021ACL

二、主要内容

这篇论文提出了一种基于流的自然语言生成(NLG)模型,该模型通过连续输入嵌入、适应的仿射耦合结构和一种新颖的自回归文本生成架构,将之前的流生成模型适配到语言生成任务中。作者还将该框架应用于序列到序列的生成任务,包括基于文本和视频的问题生成(QG)和神经机器翻译(NMT),以及用于问答(QA)的数据增强。论文展示了该语言流模型在SQuAD和TVQA上的QG基线上以及WMT16上的NMT基线上取得了改进。此外,通过向语言流的潜在特征注入噪声来增强QA数据,并展示了这种增强如何从强基线上显著提高性能。

三、相关研究

论文提到了近年来自然语言生成的各种生成模型,特别是基于RNN或变换器的序列到序列模型,以及基于变分自编码器(VAE)和生成对抗网络(GAN)的模型。然而,基于流的生成模型在图像生成中表现出色,但在NLG任务中的探索较少。相关工作包括Glow模型、DiscreteFlow、FlowSeq等。

四、解决方案

为了解决NLG任务中的挑战,作者提出了两种变体的连续语言生成流模型:非自回归和自回归模型。这些模型通过使用GloVe词嵌入将离散的标记序列映射到连续的嵌入矩阵,并利用时间维度排列和仿射耦合结构,允许序列中的单词之间进行交互,从而更好地语境化语言语义。此外,为了实现更强的自回归文本生成,作者将流模型的仿射耦合和排列改为单向结构。
在论文中,作者提出了两种语言生成模型的变体:非自回归(non-autoregressive)和自回归(autoregressive)方法。这两种方法都是为了在自然语言生成(NLG)任务中实现更有效的文本生成。

非自回归方法

非自回归方法的核心思想是并行生成文本,这意味着模型可以同时预测序列中的所有单词,而不是一个接一个地生成。这种方法的优势在于生成速度快,因为它避免了自回归模型中的顺序依赖性。在非自回归模型中,作者采用了以下关键技术:

  1. 连续输入嵌入:使用GloVe词嵌入将离散的单词序列映射到连续的嵌入矩阵,这允许模型在连续空间中处理语言数据。

  2. 时间维度排列:在流模型的每个步骤中,作者应用了1×1卷积在时间维度上进行排列,这有助于模型捕捉序列数据的时序特征。

  3. 仿射耦合:在流模型的每个步骤中,作者使用了仿射耦合结构来实现复杂的非线性映射,同时保持模型的可逆性。这允许模型在生成过程中从潜在空间中采样,并通过网络的可逆解码器生成新的文本实例。

  4. 多尺度架构:为了捕捉更多的局部特征,作者采用了多尺度架构,其中包含多个块,每个块包含多个流步骤。这种架构有助于模型更好地处理原始输入文本,同时保持完整的句子结构。

自回归方法

自回归方法则关注于顺序生成文本,即模型在生成每个单词时都依赖于之前生成的单词。这种方法通常能够生成更自然、更符合语法的文本。为了实现自回归文本生成,作者对流模型进行了以下调整:

  1. 单向排列:在自回归模型中,排列操作被限制为单向的,即每个时间步只能关注到它之前的单词。这通过将1×1卷积限制为下三角矩阵来实现。

  2. 自回归仿射耦合:作者引入了自回归版本的仿射耦合,其中每个流步骤的输入序列被递归地处理,以生成输出序列。这种结构确保了解码器在生成每个单词时都依赖于之前生成的单词。

  3. 自回归流步骤:在自回归流模型中,每个流步骤都包含K个这样的步骤,每个步骤都计算所有时间步的对数确定度的总和。这允许模型在生成过程中执行自回归解码和束搜索。

这两种方法都旨在利用流模型的可逆结构和精确密度估计特性来提高文本生成的质量。非自回归模型在速度上有优势,而自回归模型则在生成质量上表现更好。通过实验,作者展示了这两种方法在不同的NLG任务中都能取得显著的性能提升。

五、实验环节

作者在SQuAD和TVQA数据集上进行了问题生成(QG)和问答(QA)数据增强的实验。在QG任务中,使用非自回归流模型为标准编码器-解码器文本生成模型提供额外的输入特征。在NMT任务中,使用流模型增强了基于变换器的基线模型。在QA数据增强中,通过向流模型的潜在特征注入噪声来生成新的上下文,并通过数据过滤和训练策略实现了性能提升。

六、进一步探索点:

论文中提到了非自回归模型在生成速度上的优势,但在生成质量上仍难以超越自回归模型。这表明在非自回归文本生成的质量方面还有进一步的探索空间。此外,流模型在其他NMT和NLG任务中的应用也是一个值得探索的方向。

七、总结

这篇论文提出了一种新的基于流的语言生成模型,该模型在连续潜在空间中处理离散语言数据,并在多个下游任务中展示了其有效性。通过非自回归和自回归变体,该模型在密度估计、问题生成、机器翻译和问答数据增强方面均取得了显著的改进。尽管在非自回归生成质量方面仍有提升空间,但该研究为自然语言生成领域提供了有价值的新视角。

  • 11
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目录...................................................................................................................................- 2 - 1.简介...............................................................................................................................................- 4 - 1.1. 背景.....................................................................................................................................- 4 - 1.2. 目的.....................................................................................................................................- 4 - 1.3. 范围.....................................................................................................................................- 4 - 1.4. 对象.....................................................................................................................................- 5 - 1.5. 如何阅读............................................................................................................................. - 5 - 1.6. 参考.....................................................................................................................................- 5 - 1.7. 修订历史............................................................................................................................. - 5 - 2.工作系统简介...........................................................................................................................- 6 - 2.1. 什么是工作(workflow).............................................................................................. - 6 - 2.1.1. 建立时期功能..........................................................................................................- 7 - 2.1.2. 运行时期过程控制功能...........................................................................................- 8 - 2.1.3. 运行时期活动交互..................................................................................................- 8 - 2.1.4. 分配与系统接口......................................................................................................- 8 - 2.2. 工作的发展.....................................................................................................................- 9 - 2.3. 产品实现模型.....................................................................................................................- 9 - 2.4. 可选择的实现方式(Alternative Implementation Scenarios).......................................- 14 - 2.5. 对标准化的需要(The Need for Standardization)........................................................- 17 - 3.工作参考模型(Workflow Reference Model).....................................................................- 18 - 3.1. 简介...................................................................................................................................- 18 - 3.2. 工作模型(The Workflow Model)............................................................................- 18 - 3.3. 工作执行服务器(Workflow Enactment Services)................................................... - 19 - 3.3.1. 什么是工作执行服务器?................................................................................. - 19 - 3.3.2. 工作机(The Workflow Engine).....................................................................- 20 - 3.3.3. 同种 和 异种的工作执行服务器(Homogeneous & Heterogeneous Workflow Enactment Services)........................................................................................................ - 21 - 3.3.4. 工作应用编程接口与数据交换(Workflow Application programming Interface & Interchange).................................................................................................................... - 23 -

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值