Learning to Extract Coherent Summary via Deep Reinforcement Learning阅读笔记


author:

  • 小小
    title: |
    Learning to Extract Coherent Summary via Deep Reinforcement
    Learning阅读笔记

本文主要是进行抽取式摘要的研究。

摘要

指出目前存在的抽取模型只是单纯的抽取符合要求(表达中心思想或者符合查询要求)的句子,但是忽略了句子和句子之间的连贯性。作者认为句子连贯性对于文本摘要总结的可读性和清晰性很重要。由此提出了神经连贯模型并且使用了强化学习来进行实现。

绪论

指出了目前的生成式摘要采用机器翻译中的序列到序列的方法,但是忽略了生成摘要的基本问题:长文档的表示问题,连贯可读性的句子。因此作者觉得抽取式摘要是更加实际的方法,保证了摘要的语法正确性和与原文的相关性。

(Erkan and Radev 2004)使用基于图的方法,(Lin and Bilmes
2011)使用子函数, (Berg-Kirkpatrick, Gillick, and Klein
2011)使用整数线性规划来进行句子打分,但是他们都需要人工提取的特征。

(Mikolov et al. 2013; Hu et al. 2016;Cheng and Lapata 2016; Nallapati,
Zhai, and Zhou
2017)使用了分布式文本表示并采用了深度学习来抽取句子。确实提取了重要的句子,但是缺乏连贯性导致可读性和清晰度很低。

**主要贡献:**1.提出了新型的神经连贯模型,使用句子的分布式表示(不用采用人工特征),且不依赖任何命名实体识别系统,可以从0开始进行训练。2.使用强化学习将连贯性和神经抽取摘要模型结合起来。

相关工作

本文建立在神经摘要抽取,强化学习和一致性建模的相关工作上。

神经摘要抽取:(Filippova et al.
2015)使用RNN模型删除句子来进行句子压缩;(Cheng and Lapata
2016)先使用CNN编码句子,然后使用RNN按照句子顺序编码整个文档,最后考虑整个文档和先前标记的句子用RNN进行句子标记;(Cheng
and Lapata 2016)主要考虑了句子的重要性和冗余性;(Nallapati, Zhai, and
Zhou 2017)主要采用了句子内容,突出性,新颖性和位置来进行文档编码表示。

强化学习:(Ryang and Abekawa 2012; Rioux, Hasan, and Chali 2014;
Henb, Mieskes, and Gurevych 2015) 使用 value-based RL algorithms
来进行摘要抽取,但是他们使用的是人工抽取的特征并且没有考虑到使用句子连贯性得分作为奖励。

(aulus, Xiong, and Socher 2017) 使用 ROUGE-L
得分作为强化学习的奖励并且使用 self-critical policy gradient
进行强化学习算法进行训练。(Ayana et al. 2016; Ranzato et al.
2015)使用强化学习来优化评估指标。但是他们都是应用于生成式摘要并且忽略了句子的连贯性。

一致性建模: (Barzilay and Lapata 2008)提出的实体网格模型(Entity
grid model)由于维度的限制不能用于神经网络;(Nguyen and Joty
2017)使用了基于分布式表示的卷积神经网络来进行建模,但是还是使用了实体网格的特征,所以并没有将神经网络的优势体现出来;(Li
and Hovy
2014)使用循环和递归神经网络并采用实体对的方式训练模型,但是忽略了句子间的交互关系。

模型

神经摘要抽取模型

模型将摘要抽取用二分类来求解,每个句子有两个标签(0,1)选择标签为1的句子放入摘要中。

具体处理过程:**词级:**使用CNN获取词语特征和上下文信息。每个词经过卷积获得词表示,所有词求平均获得句子的表示向量。**句子级:**每个句子经过Bi-GRU获得前向和反向的输出,将两个连接起来作为新的句子的向量表示。最后将所有的句子求平均然后非线性化作为整个文档的表示。
d = t a n h ( W d ( 1 n ∑ t = 1 n h ↔ t ) + b d ) d = tanh(\mathbf{W}_d(\frac{1}{n}\sum_{t=1}^n\stackrel{\leftrightarrow}h_t)+b_d) d=tanh(Wd(n1t=1nht)+bd)
然后综合考虑句子向量,之前已经选择出来的句子和文档向量,使用MLP计算当前句子的标签。

强化学习模型

首先介绍一下强化学习。强化学习包含四个要素:agent,环境状态,行动,奖励。对应于本文,agent就是先前的神经摘要抽取模型,环境状态就是具体的计算环境,行动就是判断标签,奖励则为最后的得分。

强化学习目前主要有这几种算法。(还没有具体看强化学习算法)

  1. Sarsa 1 Q 为动作效用函数(action-utility
    function),用于评价在特定状态下采取某个动作的优劣,可以将之理解为智能体(Agent)的大脑。
    SARSA 利用马尔科夫性质,只利用了下一步信息,
    让系统按照策略指引进行探索,在探索每一步都进行状态价值的更新。

  2. Q learning 2 Q Learning 的算法框架和 SARSA 类似,
    也是让系统按照策略指引进行探索,在探索每一步都进行状态价值的更新。关键在于
    Q Learning 和 SARSA 的更新公式不一样。

  3. Policy Gradients 3
    系统会从一个固定或者随机起始状态出发,策略梯度让系统探索环境,生成一个从起始状态到终止状态的状态-动作-奖励序列,从而求解策略梯度优化问题。

  4. Actor-Critic 4 算法分为两个部分:Actor 和 Critic。Actor 更新策略,
    Critic 更新价值。Critic 就可以用之前介绍的 SARSA 或者 Q Learning
    算法。

  5. Monte-carlo learning 5

  6. Deep-Q-Network 6

本文采用了第3中的强化学习算法。但是奖励机制采用作者提出的神经连贯模型得分和ROUGE的得分综合考虑。

神经连贯模型

此模型基于(Hu et al.
2014)提出的ARC-II句子匹配。此模型跟以往相比加入了句子间的交互信息。
两个句子,前一个的句子的词和后一个句子的词的各种组合进行卷积,最大池化和MLP得到两个句子的连贯性得分。

总结

本文综合得分相对还是很高的,我觉得主要有几个点处理的比较粗暴。

  • 从词表示到句子直接用词表示求平均,同理由句子到文档一样。

  • 强化学习还有很多可以改进的。如策略更新,奖励更新等等。

  • 没有考虑句子的冗余性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值