【论文阅读笔记】Autoencoder as Assistant Supervisor

本文提出了一种使用自动编码器作为监督器的模型,改进了中文社交媒体文本摘要的表示学习。该模型在源内容和摘要的表示之间引入了监督,通过对抗性学习进一步增强,从而在大规模中文社交媒体数据集上达到了最先进的性能。
摘要由CSDN通过智能技术生成

Autoencoder as Assistant Supervisor: Improving Text Representation for Chinese Social Media Text Summarization / 自动编码器作为监督器:改进中文社交媒体文本摘要的文本表示方法


Abstract

        目前大多数的摘要文本模型都是基于序列到序列的模型(Seq2Seq)。社交媒体的源内容冗长且嘈杂,因此Seq2Seq很难学习到准确的语义表示。与源内容相比,注释摘要短小精悍。此外,它与源内容具有相同的含义。在这项工作中,我们监督学习源内容的表示与摘要的表示。在实现中,我们将摘要自动编码器作为Seq2Seq的监督。在之前的工作基础上,我们在一个流行的中国社交媒体数据集上评估了我们的模型。实验结果表明,该模型在基准数据集上达到了最先进的性能。

🌙what is seq2seq

        首先,补习一下LSTM的知识点。在此之前我们要了解一下RNN网络(循环神经网络),它的结构我感觉有点像编译原理里学过的自动机,反正大概意思就是它的Hidden Layer是S=f(现有的输入+过去记忆总结) ,借此来实现了时间记忆功能。LSTM和GRU是作为RNN的改进版出现的。LSTM可以通过“”结构来去除或者增加“细胞状态”的信息,实现了对重要内容的保留和对不重要内容的去除。

        seq2seq是根据给定的序列,通过特定的方法产生一个新序列。不仅是一句话,扩展来说也可以是图像生成图像字幕,文字生成文字摘要。模型通常包含编码器、解码器、上下文向量三个部分。

1 Introduction

        文本摘要是对文本的主要思想进行简要的总结。不同于提取文本摘要(Radev等人,2004;伍德森和拉帕塔,2010;Cheng和Lapata, 2016),从源文本中选择单词或单词短语作为摘要,抽象文本摘要学习语义表示,以生成更接近人工的摘要。目前,大多数抽象文本摘要模型都是基于seq2seq模型的,该模型使用编码器将源文本编码成语义表示,并使用解码器从语义表示生成摘要

        社交媒体上的内容很长,包含很多错误,这些错误来自拼写错误、非正式表达和语法错误(Baldwin et al, 2013)。大量的内容错误给文本的归纳带来了很大的困难。对于基于RNN的Seq2Seq,由于存在梯度消失和爆炸问题,很难将长序列压缩成精确的表示形式(Li et al, 2015)。

这里的梯度消失和BP的不一样,这里主要指由于时间过长而造成记忆值较小的现象。

        与源内容相比,更容易编码摘要的表示形式更容易,这些表示形式很短,并且是手动选择的。由于源内容和摘要共享相同的点,可以监督源内容的语义表示与摘要的语义表示的学习。

        在本文中,我们将一个摘要自动编码器作为Seq2Seq的监督器。首先,我们训练一个自动编码器,它输入并重构摘要,以获得更好的表示来生成摘要。然后,我们通过最小化两个表示之间的距离来监督Seq2Seq的内部表示与自动编码器的内部表示。最后,我们利用对抗性学习来加强监督。继之前的工作(Ma et al, 2017)之后,我们在一个中国社交媒体数据集上评估了我们提出的模型。实验结果表明,我们的模型优于现有的基线模型。

2 Proposed Model

本节将详细介绍我们提出的模型。

3.1 Notation

        给定一个由N个数据样本组成的汇总数据集,第i个数据样本(x_i,y_i)包含了一个源内容x_i={x_1,x_2,...,x_M}和一个摘要y_i={y_1,y_2,...,y_L},M为源词数,L为摘要词数。在训练阶段,我们训练模型在给定源内容x的情况下生成摘要y。在测试阶段,模型在给定源内容x的情况下解码预测的摘要y'。

图1

 2.2 Supervision with Autoencoder

        图1显示了我们的模型的体系结构。在训练阶段,源内容编码器使用Bi-LSTM编码器将输入内容x压缩到内部表示z_t中。同时,摘要编码器将引用摘要y压缩为表示z_s。然后将z_t和z_s都输入LSTM解码器以生成摘要。最后,源内容的语义表示由摘要监督。

        我们通过最小化语义表示z_t和z_s之间的距离来实现监督,损失函数中的这一项可以写成:

式1

         其中d(z_t, z_s)是测量z_s和z_t之间距离的函数。λ是一个可调超参数,以平衡监督损失和其他部分的损失,N_h是隐藏单元的数量,以限制距离函数的大小。根据验证集上的性能,我们设置λ = 0.3。两个表示之间的距离可以写成:

式2

2.3 Adversarial Learning

        我们以对抗性学习的方式进一步加强监督。如式1所示,我们使用一个固定的超参数λ作为权重来衡量自动编码器的监督强度。但在源内容与摘要相关性高的情况下,监督力度应较高,而在源内容与摘要相关性低的情况下,监督力度应较低。为了更动态地确定监督的强度,我们引入了对抗学习。更具体地说,我们将自动编码器的表示视为“黄金”表示,而将序列到序列的表示视为“假”表示。训练一个模型来区分黄金和假表示,这被称为鉴别器。鉴别器试图识别这两种表示。相反,监督,使表示之间的距离最小化,使它们相似,试图阻止鉴别器做出正确的预测。这样,当鉴别器能够区分两种表示形式(即源内容与摘要相关性较低)时,监督力度就会降低,当鉴别器不能区分时,监督力度就会提高。

        在对抗学习的实现中,判别器目标函数可表示为:

        

式3

         其中,是鉴别器将向量z识别为“黄金”表示的概率,是将向量z识别为“假”表示的概率。是鉴别器的参数。在鉴别器目标最小化时,我们只训练鉴别器的参数,其余参数保持不变。

        针对鉴别器的监督目标函数可以写成:

式4

        当监督目标最小化时,我们只更新编码器的参数。

2.4 Loss Function and Training

        在我们的模型中,目标函数有几个部分需要优化。

        第一部分是seq2seq和自动编码器的交叉熵损失:

式5 6

        第二部分是监督的L2损失,如式1所示。最后是对抗性学习,即公式3和公式4。所有这些部分加起来就是要优化的最终损失函数。

  • L1损失函数又称为MAE(mean abs error),即平均绝对误差,也就是预测值和真实值之间差值的绝对值。
  • L2损失函数又称为MSE(mean square error),即平均平方误差,也就是预测值和真实值之间差值的平方。

        我们使用Adam (Kingma and Ba, 2014)优化方法来训练模型。对于Adam优化器的超参数,我们设置学习率α = 0.001,两个动量参数β1 = 0.9和β2 = 0.999,。我们将梯度(Pascanu et al, 2013)剪辑到最大范数10.0。

3 Experiments

继之前的工作(Ma et al, 2017)之后,我们在一个流行的中国社交媒体数据集上评估了我们的模型。我们首先介绍了数据集、评价指标和实验细节。然后,我们将我们的模型与几个最先进的系统进行比较。

3.1 Dataset

        大规模中文社交媒体文本摘要数据集(LCSTS)由Hu等人(2015)构建。该数据集由超过240万对文本摘要组成,构建于著名的中国社交媒体网站新浪微博。它分为三个部分,第一部分有2,400,591对,第二部分有10,666对,第三部分有1,106对。第二部分和第三部分中的所有文本摘要对都是手动标注的,相关分数从1到5不等。我们只保留得分不低于3分的样本,第二部分剩下8685对,第三部分剩下725对。在前面的工作(Hu et al, 2015)的基础上,我们使用PART I作为训练集,PART II作为验证集,PART III作为测试集。

3.2 Evaluation Metric(评价指标)

        我们的评价指标是ROUGE评分(Lin and Hovy, 2003),它是常用的总结性评价指标。通过计算重叠的词汇单位(包括unigram、bigram、trigram和最长公共子序列(LCS)),这些指标将自动生成的摘要与参考摘要进行比较。继之前的工作(Rush et al, 2015;Hu et al, 2015),我们在报道的实验结果中使用ROUGE-1 (ungram)、ROUGE-2 (double gram)和ROUGE-L (LCS)作为评价指标。

3.3 Experimental Details

        词汇从训练集中提取,源内容和摘要使用相同的词汇。为了减少分词错误的风险,我们将中文句子分成汉字。我们将词汇量削减到4000,这涵盖了大多数常见字符。

        我们基于验证集上的ROUGE评分对超参数调优。我们将单词嵌入大小和隐藏大小设置为512,LSTM层数为2。批处理大小为64,我们不使用dropout (Srivastava et al, 2014)。在之前的工作(Li et al, 2017)的基础上,我们实现了光束搜索,并将光束大小设置为10。

3.4 Baselines

        我们将我们的模型与以下最先进的几个进行比较。

  •  RNN和RNN-cont 是由Hu等人(2015)提供的两个序列对序列基线,带有GRU编码器和解码器。两者的区别在于,RNN-上下文具有注意机制,而RNN没有。
  • RNN-dist (Chen et al, 2016) 是一种基于注意力分散的神经模型,注意力分散的机制侧重于源内容的不同部分。
  • CopyNet (Gu et al, 2016) 包含了一种复制机制,允许从源内容复制生成的摘要的部分内容。
  • SRB (Ma et al, 2017) 是一个基于序列对序列的神经模型,改善了输入文本和输出摘要之间的语义相关性。
  • DRGD (Li等人,2017) 是一种深度循环生成式解码器模型,将解码器与变分自编码器相结合。
  • Seq2seq 是我们对序列到序列模型的实现,带有注意机制,它具有与我们的模型相同的实验设置,以便进行公平比较。

3.5 Results

        为了简单起见,我们将使用自动编码器模型的监督标记为superAE。我们报告我们的模型的ROUGE F1得分和测试集上的对比模型。

        表1总结了我们的superAE模型和几个对比的结果。我们首先将我们的模型与Seq2Seq进行比较,superAE模型比Seq2Seq在ROUGE-1提高了7.1,在ROUGE-2上提高了6.1,在ROUGE-L上提高了7.0,这证明了我们的模型的效率。此外,我们将我们的模型与最近的摘要系统进行了比较,这些系统都是在相同的训练集和测试集上进行评估的。他们的研究结果直接发表在相关文章中。结果表明,我们的superAE优于所有这些模型,相对增益在ROUGE-1上为2.2,在ROUGE-2上为1.8,在ROUGE-L上为2.0。我们还通过去除对抗性学习部分来进行消融研究,以显示其贡献。结果表明,对抗学习在ROUGE-1上提高了1.5,在ROUGE-2上提高了0.7,在ROUGE-L上提高了1.0。

        我们也对模型进行了实例总结。如表3所示,SeqSeq模型捕获了源内容的错误含义,并生成了“中国联合航空公司在机场爆炸”的摘要。我们的superAE模型捕获了正确的点,因此生成的摘要在意义上接近参考摘要。

3.6 Analysis of text representation

        我们想分析我们的superAE模型是否改善了内部文本表示。由于文本表示抽象且难以评价,我们利用情感分类器将文本表示转化为情感评分,并通过情感准确率来评价文本表示的质量。

        我们在亚马逊精品食品评论语料库上进行了实验(McAuley和Leskovec, 2013)。亚马逊数据集包含用户的评级标签和评论摘要,这使得训练分类器预测情感标签和seq2seq模型生成摘要成为可能。首先,我们训练了superAE模型和seq2seq模型与文本-摘要对直到收敛。然后,我们将编码器转移到一个情感分类器中,并通过固定编码器的参数来训练分类器。分类器是一个简单的前馈神经网络,它将表示映射到标签分布。最后,计算预测的2类和5类标签的准确率。

         如表2所示,seq2seq模型在2-class和5-class的准确率分别为80.7%和65.1%。我们的superAE模型表现优于基线,有8.1%和6.6%的较大差距。

4 Related Work

        Rush等人(2015)首先提出了一种基于抽象的摘要模型,该模型使用细心的CNN编码器压缩文本,使用神经网络语言模型生成摘要。Chopra等人(2016)探索了抽象摘要的循环结构。为了解决词汇量不足的问题,Nallapati等人(2016)提出了一种生成器-指针模型,使解码器能够在源文本中生成单词。Gu et al(2016)也通过引入复制机制解决了这个问题,允许部分摘要从源内容中复制。参见et al(2017)进一步讨论了这一问题,并将指针-生成器模型与覆盖机制相结合。Hu等人(2015)建立了一个大型中文社交媒体短文本摘要语料库,这是我们的基准数据集之一。Chen等人(2016)引入了一种基于分散注意力的神经模型,该模型迫使注意机制专注于源输入的不同部分。Ma等人(2017)提出了一种神经模型来提高源内容和摘要之间的语义相关性。

         我们的工作也与序列对序列模型(Cho等人,2014)和自动编码器模型(Bengio, 2009;Liou et al, 2008, 2014)有关。序列到序列模型是最成功的生成神经模型之一,被广泛应用于机器翻译(Sutskever et al, 2014;Jean等,2015;Luong等人,2015),文本摘要(Rush等人,2015;Chopra等,2016;Nallapati等人,2016)和其他自然语言处理任务。自动编码器(Bengio, 2009)是一种人工神经网络,用于有效表示的无监督学习。神经注意模型由Bahdanau等人(2014)首次提出。

5 Conclusion

我们提出了一个新的模型(加了监督器的模型),在这个模型中,自动编码器是序列到序列模型的监督者,学习一个更好的内部表示用于抽象摘要。引入了一种对抗学习方法(提高这个加入部分的性能),进一步提高了自编码器的监督性能。实验结果表明,该模型在序列到序列基线的性能上有较大的提高,在中文社交媒体数据集上达到了最先进的性能。

致谢

标注

粉色:笔记中的重点内容

橙色:译文中的名词笔记

紫色:译文中的重点内容

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值