Controllable Abstractive Summarization论文笔记

最新推荐文章于 2024-07-25 17:49:34 发布

呔吗

最新推荐文章于 2024-07-25 17:49:34 发布

阅读量201

点赞数 2

分类专栏：知识图谱论文笔记文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_60874964/article/details/126144328

版权

知识图谱论文笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

实现功能：

让用户指定（通过用户输入）摘要的高级属性：长度，样式，用户可能感兴趣的实体或用户已经阅读了多少文档（例如允许读者指定他们只想总结文章的一部分，在他们没有读过的其余段落的情况下）

怎么实现的（算法）：

摘要实现：

将文档压缩为一个简短的段落或句子，同时保留了核心信息。摘要算法是抽取式或生成式的。抽取算法通过将输入的相关部分粘贴在一起形成摘要，而生成算法可能会生成初始文档中不存在的新文本。

用户可控摘要：

介绍了我们的摘要模型和用户可以修改的控制变量。

卷积序列到序列：

建立在Gehring et al. (2017)的卷积模型的基础上。编码器和解码器是深度卷积网络。两者都从词嵌入层开始，然后与门控线性单元（GLU）交替卷积。解码器通过注意力模块连接到编码器，该模块执行编码器输出的加权求和。权重是根据当前解码器状态预测的，从而使解码器可以强调输入文档中与生成下一个字符最相关的部分。我们使用多跳注意，即注意力被应用到解码器的每一层。
　　除了引入编码器状态之外，我们还使用解码器中的内部注意力来使模型能够引用先前生成的单词。这使解码器可以跟踪其进度并减少重复信息的生成。为了结合编码器和解码器的注意力，我们在每一层的每种注意力之间进行交替。
　　CNN-Dailymail基准测试的许多先前工作都是使用指针网络从输入中复制稀有实体，这给模型带来了额外的复杂性。相反，我们依靠子词字符化和权重共享（即共享词表）。我们证明这种简单的方法非常有效。具体来说，我们使用字节对编码（BPE）进行字符化，这是一种行之有效的策略，已被证明可以改善翻译中专有名词的生成。我们在编码器和解码器的词嵌入层以及最后一个解码器层中共享字符的表示。

长度约束的摘要：

摘要使读者可以在有限的时间内快速理解文档的核心思想。控制摘要的长度可以使读者以不同的时间预算进行阅读：文档可以概括为五个字的标题，单个句子或段落，每个都提供越来越多的细节。
　　为了使用户能够控制长度，我们首先将摘要长度量化为离散的二进制表示，每个二进制表示代表一个大小范围。选择长度二进制，以便每个长度二进制包含大致相等数量的训练文档。然后，我们用特殊的单词类型扩展输入词表，以指示所需摘要的长度二进制，从而以该离散长度变量为条件生成摘要。
　　在训练时，我们在摘要器的输入之前添加了一个标记，该标记指示真实摘要的长度。
　　在测试时，我们通过在字符之前添加特定长度标记来控制生成文本的长度。

以实体为中心的摘要：

读者可能对文档感兴趣，以了解特定的实体，例如人或地点。例如，体育迷阅读有关最近比赛的信息时，可能希望将摘要集中在他们最喜欢的球员的表现上。为了启用以实体为中心的摘要，我们首先用相同的标记替换文档中所有出现的给定实体，从而使实体匿名。为了进行训练，我们还匿名化了相应的参考摘要。对于【文档，摘要】对，将每个实体替换为集合中的字符（@entity0,…,@entityN）。这样可以抽象出表面形式，从而使我们的方法可以扩展到许多实体，并推广到看不见的实体。
　　然后，我们通过在输入之前添加实体字符来表示实体应存在于生成的摘要中，而@entity3则表示该模型应在存在@ entity3的情况下生成一个摘要。实际上，这指示模型将重点放在提及已标记实体的句子上。
　　在训练时，我们会在每个文档的前面加上标记，这些标记指的是真实摘要中的实体。为确保实体请求能提供信息，我们提供了一个实体，该实体存在于真实情况中，但不存在于基线模型生成的摘要中。在测试时，我们可以指定希望摘要包含的任何实体标记。我们的实验（第5.2节）评估了在输入之前添加不同标记的效果。

文风特定的摘要：

诸如报纸和杂志之类的文本来源通常具有特定的样式准则，以提供一致的体验。读者习惯阅读自己喜欢的资料的风格。因此，我们使用户能够为摘要指定首选的源样式。与长度和实体类似，我们引入了特殊的标记标记（@ genSource0，…，@ genSourceN）来表示源的期望数据。为了进行训练，我们在输入之前添加了与真实源相对应的标记。推断时，我们通过在前面加上不同的标记来控制生成的摘要的样式。

剩余内容摘要：

除了阅读完整文档的摘要之外，读者可能还需要仅摘要文档某些部分。例如，阅读过前几段的读者可能希望对其余文本进行总结，以涵盖他们错过的内容。
　　训练和评估剩余内容摘要需要特定的数据，即具有位置标记的完整文档数据集，该标记将已读取的部分与其余部分以及相应的摘要分开。这样的数据集不容易获得，并且很难收集。为了在没有此类数据的情况下进行剩余内容摘要，我们将摘要与完整文档对齐。我们的过程将每个参考摘要句子与基于ROUGE-L的最佳匹配文档句子进行匹配。对于文档中的任何位置，我们从完整摘要中删除在此之前对齐的句子，并将此较短的摘要视为其余部分的摘要。在我们的实验中，我们将位于两个对齐点中间的所有文章位置视为阅读部分，但对齐点之间的间隔少于2个句子。
　　我们考虑了下面的方法：
　　（1）full summary baseline
　　基线模型将预测完整的摘要，而忽略读取部分与剩余部分的分离。
　　（2）post-inference alignment
　　基线模型会生成完整的摘要，并且通过我们的对齐过程可以缩短摘要。与剩余部分对齐的已解码摘要语句构成了剩余部分的摘要。
　　（3）remainder only
　　训练模型以将文档剩余部分映射到预对齐的训练数据上的剩余摘要。本文未提供此模型的阅读部分。
　　（4）read and remainder
　　该模型同时接收文章的读取部分和剩余部分，并用特殊标记分隔。经过训练可以预测其余的摘要。我们通过使用不同的位置嵌入集来区分文章的阅读部分和剩余部分。

相关工作

序列到序列摘要

摘要出现的问题：多句摘要的生成不同于单句翻译：解码器需要在较大的时间范围内从左到右关注其前面生成的内容，否则模型倾向于生成重复的文本。为了解决这一障碍，(See et al., 2017)引入了覆盖机制建模，(Paulus et al., 2017)提出了解码器的注意力，并且(Suzuki and Nagata, 2017)为解码器配备了unigram频率估计器。先前的工作还探讨了学习目标：(Paulus et al., 2017)研究了用强化学习（RL）代替最大似然训练来优化ROUGE，ROUGE是评估总结的最常见的自动指标。结合使用这两种策略在人类评估中表现最佳，因为仅使用RL进行训练通常会产生非语法文本。
　　我们的工作基于先前的研究：与(Gehring et al., 2017)相同，我们依靠卷积网络来加快训练速度。这与使用循环网络的先前工作形成对比。我们借鉴(Paulus et al., 2017)的内部注意力，并将其扩展到多跳内部注意力，这是受到(Gehring et al., 2017)多跳源注意力的启发。为了促进复制输入实体，我们在编码器和解码器之间共享单词表示形式，并且还依赖于BPE字符化。这种组合使我们无需像(Paulus et al., 2017; See et al., 2017; Nallapati et al., 2016)那样使用指针机制。与(Paulus et al., 2017)不同，我们没有探索训练目标，而是在给出原始文档的情况下最大化了文本摘要的可能性。我们的模型适合RL，但是这个方面在很大程度上与我们的主要目标正交，即可控摘要。

可控文本生成

文本生成是一个已建立的研究领域。该领域遵循生成模型的最新进展，例如引入变分自动编码器和对抗网络。例如(Bowman et al., 2016; Yu et al., 2017; Zhao et al., 2017; Rajeswar et al., 2017)专注于自然语言生成的工作就体现了这一点。
　　建立在无条件文本生成的基础上，可控文本生成是一个新兴的研究领域。计算机视觉的研究包括模式转移或可控制的图像生成。文本生成工作着重于使用变分自动编码器控制时态或情感。Shen et al. (2017)依靠对抗训练来操纵句子情感，Sennrich et al. (2016a)提出使用侧面约束对神经机器翻译模型的语气进行控制。Takeno et al. (2017)扩展了侧面约束以控制翻译输出的其他方面，例如长度。其他人则在样式方面进行了研究，例如Ficler and Goldberg(2017)提出使用条件语言模型来生成具有样式要求的文本， Kobus et al. (2017)提出使用字符和其他特征来翻译不同领域中的文本。Filippova(2017)提出了控制问答任务中生成答案的长度。Kikuchi et al. (2016)探索了使用解码时间限制和训练时间长度字符嵌入进行句子压缩的长度控制。
　　出于简单性的考虑，我们的工作依赖于条件语言建模，并且不需要对抗训练，以及潜在变量模型（例如变分自动编码器或指针网络）。虽然潜在变量模型在生成连续输出（例如图像）方面很流行，但（条件）语言模型足够灵活，可以捕获数据的多峰性质。我们将评估其他潜在变量如何改善我们的结果，以供将来的工作之用。

呔吗

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Controllable Abstractive Summarization论文笔记

将文档压缩为一个简短的段落或句子，同时保留了核心信息。摘要算法是抽取式或生成式的。抽取算法通过将输入的相关部分粘贴在一起形成摘要，而生成算法可能会生成初始文档中不存在的新文本。介绍了我们的摘要模型和用户可以修改的控制变量。建立在Gehring et al. (2017)的卷积模型的基础上。编码器和解码器是深度卷积网络。两者都从词嵌入层开始，然后与门控线性单元（GLU）交替卷积。解码器通过注意力模块连接到编码器，该模块执行编码器输出的加权求和。...
复制链接

扫一扫

专栏目录