A Hybrid CNN-RNN Alignment Model for Phrase-Aware Sentence Classification

最新推荐文章于 2023-02-24 22:46:05 发布

xxzhix

最新推荐文章于 2023-02-24 22:46:05 发布

阅读量439

点赞数 1

分类专栏：文本分析

文本分析专栏收录该内容

9 篇文章 0 订阅

订阅专栏

记录一下这篇论文。

网络结构如下：

有3个阶段：第一个阶段是使用CNN生成短语向量，第二个阶段结合短语向量和词向量，并使用软对齐的RNN来生成考虑词顺序的句向量，第三个阶段使用句向量来做类别预测。

1. CNN句向量

是句子中第i个单词对应的k维的词向量，长度为N的句子可以看作列方向上的词向量的拼接。

使用一系列卷积核来学习不同长度的短语表示。

表示第i步的短语向量，包含了所有以结尾的短语。

（短语向量的作用就是后面加入到生成句子状态向量时的输入中）

2. 软对齐RNN

使用第i个词更新的state来表示一个d维的向量，句子状态向量

在GRU的第i步，GRU cell使用更新门Z来遗忘句向量的部分信息，并使用重置门R来更新。GRU cells是由和

来控制的。

一般GRU公式：（其中ht-1就相当于这边的Si-1）

在我们的网络结构中，由CNN生成的短语向量也作为GRU RNN的输入。

如何理解在输入中加入？

一种理解方法是认为模型尝试基于目前的句子状态向量来决定由词生成的哪个短语比较合理，就是会根据来更新。

在上图中，单词guys，权重函数根据这个短语向量和句子状态向量的相似性来决定 "couple of crazy guys" "of crazy guys" "crazy guys"这些短语向量的权重。为了计算相似度，短语向量(以第i个单词结尾的长度为l的短语对应的向量)和句子状态向量被映射到一个新的向量空间，使用点乘来表示相似度，相似度表示为，叫做注意力得分(attention scoring)。是第i个单词对应所有的短语向量的注意力得分。

如果对使用softmax表示神经网络必须关注输入的某一部分，但是在我们的网络结构中，这种假设是不对的，因为短语信息在训练RNN每一步的时候不一定需要。例如“Then one day, completely out of the blue, I had a letter from her.” 以"blue"结尾的短语是需要的，但是以“I”结尾生成的短语是不需要的，所以，动态加入或忽略短语向量的框架是必要的。

使用什么算法来计算短语向量的权重？

使用一系列GRU cell，输入是之前的权重，其他短语的权重，注意力得分作为输入，来计算每个短语向量最终的权重。初衷是想要拼接注意力得分，之前的权重和其他短语的权重来确定的权重（为什么使用三个信息来确定权重？），使用RNN可以存储过去的信息，并考虑当前的权重。为了计算，如果还没有计算，使用作为GRU的输入。