Improved Semanic Representations From Tree-Structured Long Short-Term Memory Networks

最新推荐文章于 2024-09-14 17:02:52 发布

尧景

最新推荐文章于 2024-09-14 17:02:52 发布

阅读量225

点赞数

分类专栏：深度之眼情感分析文章标签：人工智能

本文链接：https://blog.csdn.net/ying_m/article/details/118784152

版权

深度之眼情感分析专栏收录该内容

4 篇文章 1 订阅

订阅专栏

在这里插入图片描述

论文阅读前期

前期知识储备

在这里插入图片描述

学习目标

在这里插入图片描述

论文导读

论文研究背景、成果及意义

监督学习模型
在这里插入图片描述
循环神经网络
解决任意长度句子i问题

真实情况下，循环神经网络对于长度太长(500-600词)的句子来讲，分类效果会大大降低。
长短期记忆网络
一定程度上降低梯度消失和爆炸的程度

Bi-Lstm用来提取序列上的特征。Bi-lstm并不能解决长序列的问题，输入一句话，前向的读一遍，反向的读一遍，最后将从前往后得到的特征与从后往前得到的特征进行汇总，汇总的方式有很多，比如相加或拼接。
【问题】根据以上的深度学习模型，可以很好的学习句子前后之间的关系，但如何有效的学习语法语境是否和句子结构的关系？

句法分析

语言具备自定而下的层级关系，固定数量的语法结构能够生成无数句子。比如，仅仅利用两个语法规律，我们就能生成所有名词短语。

名词短语可以由名词和名词短语组成。
名词短语还可以由名词和名词组成。

短语结构树

短语结构语法描述了如何自顶而下的生成一个句子，反过来，句子也可以用短语结构语法来递归的分解。层级结构其实是一种树形结构，例如这句话“上海浦东开发与法制建设同步”，分解成如下图的短语结构树：
在这里插入图片描述
IP-HLN : 单句-标题；NP-SBJ：名词短语-主语；NP-PN：名词短语-代词；NP：名词短语；VP：动词短语
通过RNN或LSTM这些模型，如何从句子里面学习到像这个树里面的结构层次上面的特征，只从顺序上面去学这种信息，很难学习到这种层级的关系，作者认为要通过一种树型结构来获取相关信息。从句子上面讲，除了层级的关系，还存在依存这种关系，即句子与句子之间是有一定的联系的，例如下图中的“大梦想”之间的关系。
在这里插入图片描述

依存句法树

依存语法理论认为词与词之间存在主从关系，这是一种二元不等价的关系。在句子中，如果一个词修饰另一个词，则称修饰词为从属词(dependent)，被修饰的词语称为支配词(head)，两者之间的语法关系称为依存关系(dependency relation)。比如句子“大梦想”中形容词“大”与名词“梦想”之间的依存关系。
在这里插入图片描述
现代依存语法中，语言学家Robinson对依存句法树提了4个约束性的公理：

有且只有一个词语(ROOT，虚拟根节点，简称虚根)不依存于其他词语。
除此之外所有单词必须依存于其他单词。
每个单词不能依存于多个单词。
如果单词A依存于B，那么位置处于A和B之间的单词C只能依存于A、B或AB之间的单词。
这4条公理分别约束了依存句法树(图的特例)的根节点唯一性、连通、无环和投射性。这些约束对语料库的标注以及依存句法分析器的设计奠定了基础。
RNN对于学习语法表征还有一定的欠缺，无法学习层级关系，因此作者对结构进行一定的修改。

假设有6个词，构成的序列为x1,x2,x3,x4,x5,x6, 通过语法的分析，构建语法树，语法的分析可以借助一定的工具，例如斯坦福的corenlp包做层次结构的解析，然后再通过树状的LSTM来学习相关的特征。句子先被解析成树状结构，再利用树型lstm做进一步的处理。

论文泛读

论文结构

在这里插入图片描述

摘要

摘要核心

论文的主要工作就是丰富了LSTM的拓扑结构，由我们所熟悉的线性LSTM结构衍生出了树型LSTM结构，从而更方便地结合依存关系、短语构成等语法特性，使得语义表达更加准确。论文在预测两个句子的语义相关性(SICK)和情感分类(Stanford Sentiment Treebank)两个任务上做了实验，验证了新LSTM模型的效果。

文本特征不仅仅是序列上的特征，还有层次结构上的特征。

论文精读

论文算法模型总览

在这里插入图片描述

RNN结构

在这里插入图片描述
RNN的优点是对于时间序列类别数据的强大信息提取能力，也被称为能力，常常被用于不同长度句子的特征提取，另外由于隐藏层实际上是时间维度上的展开，所以RNN在计算每个时间步的时候，需要先完成上一个时间步的计算，所以相比于其他模型，它的运行速度相对较慢，另外，由于这种循环的结构，所以每个时间步需要上一个时间步的输出作为本时间步的输入，这样很容易造成梯度消失和梯度爆炸(自己课后学习一下相关知识)。

LSTM结构

在这里插入图片描述

BI-LSTM结构

在这里插入图片描述

多层LSTM结构

在这里插入图片描述

论文算法模型细节

细节一

TreeLSTM结构
在这里插入图片描述
两种计算方式：①根据入度为0时触发节点lstm；②遍历计算，一层一层的计算
不同的计算方式，batch的组成有一定的区别。

Child-Sum Tree-LSTMs

在这里插入图片描述

Dependency Tree-LSTMs

细节二

N-ary Tree-LSTM

它的每一个单元的子单元个数最多是N个，这个N元的树状结构能够学习到更多子节点上面更细粒度的信息。
在这里插入图片描述
Forget gate parameterization

Constituency Tree-LSTMs(短语结构树)

实验设置及结果分析

在这里插入图片描述

情感分类

数据集：Stanford Sentiment Treebank(SST)
任务介绍：两个分类任务，一个是二分类的数据，另一个更细粒度的五分类。
具体步骤：对于每一个节点 j 来说，用softmax分类器对给定输入x做label预测，最终会通过Tree LSTM的结构转化为标签。
在这里插入图片描述

损失

句子相似度计算

在这里插入图片描述
数据集：Sentences Involving Conpositional Knowledge(SICK) Y∈[1,5]
任务介绍：给定一个句子pair对，来预测他们的相似度得分。y表示相似程度，1表示相似程度很低，5表示相似程度很高。
评价指标：Pearson系数、Spearman相关系数、MSE
模型结构：
在这里插入图片描述

超参与训练

在这里插入图片描述

实验结果

在这里插入图片描述

可视化分析

在这里插入图片描述

论文总结

关键点：

树长短期记忆网络-----TreeLSTM
短语结构树-----Constituency tree N-ary Tree LSTM
依存树-----Dependency tree Child-Sum Tree
创新点：
树结构LSTM
门的改进
启发点：
语义结构编码

This suggests that unlike sequential LSTMs,Tree-LSTMs are able to encode semantically-useful structural information in the sentence representations that they compose.

词与词之间不仅有依赖关系，还有层次的变化关系

缓解长序列问题

One hypothesis to explain the empirical strength of Tree-LSTMs is that tree structures help mitigate the problem of preserving state over long sequences of words.

TreeLSTM in this paper, we introduced a generalization of LSTMs to tree-structured network topologies. The Tree-LSTM architecture can be applied to trees with arbitrary branching factor.

在这里插入图片描述