Learning to Extract Coherent Summary via Deep Reinforcement Learning阅读笔记

最新推荐文章于 2019-11-08 22:25:49 发布

helloworldisnotjustatestcode

最新推荐文章于 2019-11-08 22:25:49 发布

阅读量291

点赞数

文章标签：摘要抽取强化学习

本文链接：https://blog.csdn.net/yangxiaoxiaoly/article/details/102481654

版权

author:

小小
title: |
Learning to Extract Coherent Summary via Deep Reinforcement
Learning阅读笔记

本文主要是进行抽取式摘要的研究。

摘要

指出目前存在的抽取模型只是单纯的抽取符合要求（表达中心思想或者符合查询要求）的句子，但是忽略了句子和句子之间的连贯性。作者认为句子连贯性对于文本摘要总结的可读性和清晰性很重要。由此提出了神经连贯模型并且使用了强化学习来进行实现。

绪论

指出了目前的生成式摘要采用机器翻译中的序列到序列的方法，但是忽略了生成摘要的基本问题：长文档的表示问题，连贯可读性的句子。因此作者觉得抽取式摘要是更加实际的方法，保证了摘要的语法正确性和与原文的相关性。

(Erkan and Radev 2004)使用基于图的方法，(Lin and Bilmes
2011)使用子函数， (Berg-Kirkpatrick, Gillick, and Klein
2011)使用整数线性规划来进行句子打分，但是他们都需要人工提取的特征。

(Mikolov et al. 2013; Hu et al. 2016；Cheng and Lapata 2016; Nallapati,
Zhai, and Zhou
2017)使用了分布式文本表示并采用了深度学习来抽取句子。确实提取了重要的句子，但是缺乏连贯性导致可读性和清晰度很低。

**主要贡献：**1.提出了新型的神经连贯模型，使用句子的分布式表示（不用采用人工特征），且不依赖任何命名实体识别系统，可以从0开始进行训练。2.使用强化学习将连贯性和神经抽取摘要模型结合起来。

模型

神经摘要抽取模型

模型将摘要抽取用二分类来求解，每个句子有两个标签（0,1）选择标签为1的句子放入摘要中。

具体处理过程：**词级：**使用CNN获取词语特征和上下文信息。每个词经过卷积获得词表示，所有词求平均获得句子的表示向量。**句子级：**每个句子经过Bi-GRU获得前向和反向的输出，将两个连接起来作为新的句子的向量表示。最后将所有的句子求平均然后非线性化作为整个文档的表示。
$tanh(\mathbf{W}_d(\frac{1}{n}\sum_{t=1}^n\stackrel{\leftrightarrow}h_t)+b_d)$
然后综合考虑句子向量，之前已经选择出来的句子和文档向量，使用MLP计算当前句子的标签。

强化学习模型

首先介绍一下强化学习。强化学习包含四个要素：agent，环境状态，行动，奖励。对应于本文，agent就是先前的神经摘要抽取模型，环境状态就是具体的计算环境，行动就是判断标签，奖励则为最后的得分。

强化学习目前主要有这几种算法。(还没有具体看强化学习算法)

Sarsa 1 Q 为动作效用函数（action-utility
function），用于评价在特定状态下采取某个动作的优劣，可以将之理解为智能体（Agent）的大脑。
SARSA 利用马尔科夫性质，只利用了下一步信息,
让系统按照策略指引进行探索，在探索每一步都进行状态价值的更新。
Q learning 2 Q Learning 的算法框架和 SARSA 类似,
也是让系统按照策略指引进行探索，在探索每一步都进行状态价值的更新。关键在于
Q Learning 和 SARSA 的更新公式不一样。
Policy Gradients 3
系统会从一个固定或者随机起始状态出发，策略梯度让系统探索环境，生成一个从起始状态到终止状态的状态-动作-奖励序列，从而求解策略梯度优化问题。
Actor-Critic 4 算法分为两个部分：Actor 和 Critic。Actor 更新策略，
Critic 更新价值。Critic 就可以用之前介绍的 SARSA 或者 Q Learning
算法。
Monte-carlo learning 5
Deep-Q-Network 6