Tree-Structured LSTM模型

最新推荐文章于 2022-10-26 16:00:14 发布

IT之一小佬

最新推荐文章于 2022-10-26 16:00:14 发布

阅读量1.2k

点赞数 1

分类专栏：算法模型文章标签：算法自然语言处理机器学习

本文链接：https://blog.csdn.net/weixin_44799217/article/details/114887241

版权

算法模型专栏收录该内容

3 篇文章

订阅专栏

Tree-Structured LSTM模型

论文概要

由于能够保持按照时序的序列信息，LSTM(Long Short-Term Memory)网络在序列模型任务上能够有非常好的表现。但是该模型只能输入线型的序列，对于树型的输入(比如依赖树)无法很好的处理，由此，论文提出两种Tree-LSTM的模型，将LSTM拓展到树型的输入结构上，并在两个任务：预测语义相关性和语义分类任务上超过所有现存模型。

模型介绍和比较

大多数短语或句子的分布式表示分为三类：bag-of-words模型、sequence模型、tree-structured模型。词袋模型直接使用词汇的统计信息，没有考虑词汇的顺序，序列模型考虑的是序列结构，树型结构模型通过在给定句子的语法结构树上进行获取句子表示。

在标准的LSTM中，当前时刻的隐藏状态从当前时刻输入和上一时刻的状态得到，而对于Tree-LSTM，此刻的状态从该处的输入和任意数量的孩子单元的隐藏状态得到。传统的RNN的转换函数就是一个仿射变换接着一个tanh的激活函数：

但是，这种结构在序列比较长的时候会导致梯度爆炸或消失，对于长距离的信息很难进行传递。LSTM通过使用记忆单元来保存记忆信息，由此缓解了长距离的信息传递问题，标准的LSTM的转换方程如下：

前三个方程分别是产生“输入门”、“遗忘门”和“输出门”的方程，需要重点关注一下“遗忘门”，因为遗忘门涉及到标准的LSTM如何从上一时刻的信息中筛选出有用信息，对应于该论文的Tree-LSTM，就是涉及到父辈节点如何从孩子节点筛选出有用信息，显然，差别就在于后者可能有很多个孩子节点，需要筛选多个信息，而前者只需要筛选一个信息(就是上一时刻的信息)。

其中， $x_{t}$ 是在该时刻的输入， $\sigma$ 是sigmoid函数， $\odot$ 表示按元素乘法。基于标准的LSTM结构，还有两种LSTM的变体模型，双向LSTM和多层LSTM，双向LSTM使用两个LSTM单元分别顺序和逆序地对输入序列进行处理，每一时刻的输出就将两个LSTM单元的输出拼接起来，多层LSTM就是将多个LSTM单元叠起来，前一层的LSTM的输出作为后一层LSTM的输入，最后一层的输出作为模型的输出。

Tree-Structured LSTM模型

论文提出两个Tree-LSTM模型结构：Child-Sum Tree-LSTM模型和N-ary Tree-LSTM模型，两种模型都能够处理树型结构的输入。标准的LSTM含有输入门 $i_{j}$ 和输出门 $O_{j}$ ，记忆单元 $C_{j}$ 和隐藏状态 $h_{j}$ ，标准的LSTM和树型LSTM之间的区别在于门向量和记忆单元向量的更新要基于多个child units，前者只需要从上一时刻筛选出信息，而后者需要从多个孩子节点筛选出信息。