【论文笔记12】Iterative Alternating Neural Attention for Machine Reading

最新推荐文章于 2021-03-23 22:36:10 发布

闰土不用叉

最新推荐文章于 2021-03-23 22:36:10 发布

阅读量486

点赞数 4

分类专栏：笔记论文笔记小NLPer渣渣的被虐日记文章标签：阅读理解动态注意力机制

本文链接：https://blog.csdn.net/xyz1584172808/article/details/88919737

版权

笔记同时被 3 个专栏收录

21 篇文章 0 订阅

订阅专栏

论文笔记

15 篇文章 0 订阅

订阅专栏

小NLPer渣渣的被虐日记

15 篇文章 2 订阅

订阅专栏

1 《Iterative Alternating Neural Attention for Machine Reading》

（1）论文创新点

这个模型的文章和问题在真正使用时，都是根据前一时刻的隐层状态，动态的表示成一个向量；
在更新状态时，使用了gated机制(虽然看起来有点复杂)。

（2）论文模型

模型的整体结构图如下所示：
模型结构图
接下来将对该模型上的组成部分做简单的介绍。
bidirectional encoddings
对于问题和文章的基本表示，主要是使用BiGRU来对文本序列进行编码。具体来说，对文章，不对文章的语义信息进行整体表示，而是对文章中的每个单词序列逐一表示（即文章表示法的模型1），每个单词的表示由双向GRU的前后隐层状态拼接后得到：
$d_i=[\vec{h_i},\overleftarrow{h_i}]$
对于问题来说做同样的操作，对序列中每个单词进行表示：
$q_i=[\vec{h_i},\overleftarrow{h_i}]$

在对推理状态进行更新的时候，每次都会从问题和文章中抓取相关信息，于是构造了下面几个组成部分。

query attention

这个我们可以把它形容成获取在当前时刻 $t$ 问题的重点，这个重点是通过一个注意力机制得到的，通过公式：
$q_{i,t}=softmax[\widehat{q_i^T}(A_{q}S_{t-1}+a_{q})]$
得到该时刻每个单词的权重（其中 $\widehat{q_i^T}$ 是问题表示），于是这个时刻问题的重点由下面的公式表示：
$q_t=\sum_{i}q_{i,t}\widehat{q_i}$
document attention
首先计算文章中每个单词的权重，结合问题的重点，然后得到文章这个时刻的重点：
$d_{i,t}=softmax[\widehat{d_i^T}(A_d[S_{t_1},q_t]+a_d)]$
search gates
这个部分是由FFNN+sigmold来组成的，具体的计算公式如下：
$r=g([S_{t-1},q_t,d_t,q_t \cdot d_t])$
更新推理状态
通过上述几个公式，得到问题和文章该时刻的重点，然后通过gates对这些重点进行过滤，结合前一时刻的推理状态来得到当前时刻的推理状态：
$S_t=f([r_q \cdot q_t , r_d \cdot d_t],S_{t-1})$