目录
论文阅读前期
前期知识储备
学习目标
论文导读
论文研究背景、成果及意义
监督学习模型
循环神经网络
解决任意长度句子i问题
真实情况下,循环神经网络对于长度太长(500-600词)的句子来讲,分类效果会大大降低。
长短期记忆网络
一定程度上降低梯度消失和爆炸的程度
Bi-Lstm用来提取序列上的特征。Bi-lstm并不能解决长序列的问题,输入一句话,前向的读一遍,反向的读一遍,最后将从前往后得到的特征与从后往前得到的特征进行汇总,汇总的方式有很多,比如相加或拼接。
【问题】根据以上的深度学习模型,可以很好的学习句子前后之间的关系,但如何有效的学习语法语境是否和句子结构的关系?
句法分析
语言 具备自定而下的层级关系,固定数量的语法结构能够生成无数句子。比如,仅仅利用 两个语法规律,我们就能生成所有名词短语。
- 名词短语可以由名词和名词短语组成。
- 名词短语还可以由名词和名词组成。
短语结构树
短语结构语法描述了如何自顶而下的生成一个句子,反过来,句子也可以用短语结构语法来递归的分解。层级结构其实是一种树形结构,例如这句话“上海 浦东 开发 与 法制 建设 同步”,分解成如下图的短语结构树:
IP-HLN : 单句-标题;NP-SBJ:名词短语-主语;NP-PN:名词短语-代词;NP:名词短语;VP:动词短语
通过RNN或LSTM这些模型,如何从句子里面学习到像这个树里面的结构层次上面的特征,只从顺序上面去学这种信息,很难学习到这种层级的关系,作者认为要通过一种树型结构来获取相关信息。从句子上面讲,除了层级的关系,还存在依存这种关系,即句子与句子之间是有一定的联系的,例如下图中的“大 梦想”之间的关系。
依存句法树
依存语法理论认为词与词之间存在主从关系,这是一种二元不等价的关系。在句子中,如果一个词修饰另一个词,则称修饰词为从属词(dependent),被修饰的词语称为支配词(head),两者之间的语法关系称为依存关系(dependency relation)。比如句子“大梦想”中形容词“大”与名词“梦想”之间的依存关系。
现代依存语法中,语言学家Robinson对依存句法树提了4个约束性的公理:
- 有且只有一个词语(ROOT,虚拟根节点,简称虚根)不依存于其他词语。
- 除此之外所有单词必须依存于其他单词。
- 每个单词不能依存于多个单词。
- 如果单词A依存于B,那么位置处于A和B之间的单词C只能依存于A、B或AB之间的单词。
这4条公理分别约束了依存句法树(图的特例)的根节点唯一性、连通、无环和投射性。这些约束对语料库的标注以及依存句法分析器的设计奠定了基础。
RNN对于学习语法表征还有一定的欠缺,无法学习层级关系,因此作者对结构进行一定的修改。
假设有6个词,构成的序列为x1,x2,x3,x4,x5,x6, 通过语法的分析,构建语法树,语法的分析可以借助一定的工具,例如斯坦福的corenlp包做层次结构的解析,然后再通过树状的LSTM来学习相关的特征。句子先被解析成树状结构,再利用树型lstm做进一步的处理。
论文泛读
论文结构
摘要
摘要核心
- 论文的主要工作就是丰富了LSTM的拓扑结构,由我们所熟悉的线性LSTM结构衍生出了树型LSTM结构,从而更方便地结合依存关系、短语构成等语法特性,使得语义表达更加准确。论文在预测两个句子的语义相关性(SICK)和情感分类(Stanford Sentiment Treebank)两个任务上做了实验,验证了新LSTM模型的效果。
文本特征不仅仅是序列上的特征,还有层次结构上的特征。
论文精读
论文算法模型总览
RNN结构
RNN的优点是对于时间序列类别数据的强大信息提取能力,也被称为能力,常常被用于不同长度句子的特征提取,另外由于隐藏层实际上是时间维度上的展开,所以RNN在计算每个时间步的时候,需要先完成上一个时间步的计算,所以相比于其他模型,它的运行速度相对较慢,另外,由于这种循环的结构,所以每个时间步需要上一个时间步的输出作为本时间步的输入,这样很容易造成梯度消失和梯度爆炸(自己课后学习一下相关知识)。
LSTM结构
BI-LSTM结构
多层LSTM结构
论文算法模型细节
细节一
TreeLSTM结构
两种计算方式:①根据入度为0时触发节点lstm;②遍历计算,一层一层的计算
不同的计算方式,batch的组成有一定的区别。
Child-Sum Tree-LSTMs
Dependency Tree-LSTMs
细节二
N-ary Tree-LSTM
它的每一个单元的子单元个数最多是N个,这个N元的树状结构能够学习到更多子节点上面更细粒度的信息。
Forget gate parameterization
Constituency Tree-LSTMs(短语结构树)
实验设置及结果分析
情感分类
数据集:Stanford Sentiment Treebank(SST)
任务介绍:两个分类任务,一个是二分类的数据,另一个 更细粒度的五分类。
具体步骤:对于每一个节点 j 来说,用softmax分类器对给定输入x做label预测,最终会通过Tree LSTM的结构转化为标签。
损失
句子相似度计算
数据集:Sentences Involving Conpositional Knowledge(SICK) Y∈[1,5]
任务介绍:给定一个句子pair对,来预测他们的相似度得分。y表示相似程度,1表示相似程度很低,5表示相似程度很高。
评价指标:Pearson系数、Spearman相关系数、MSE
模型结构:
超参与训练
实验结果
可视化分析
论文总结
关键点:
- 树长短期记忆网络-----TreeLSTM
- 短语结构树-----Constituency tree N-ary Tree LSTM
- 依存树-----Dependency tree Child-Sum Tree
创新点: - 树结构LSTM
- 门的改进
启发点: - 语义结构编码
This suggests that unlike sequential LSTMs,Tree-LSTMs are able to encode semantically-useful structural information in the sentence representations that they compose.
词与词之间不仅有依赖关系,还有层次的变化关系
- 缓解长序列问题
One hypothesis to explain the empirical strength of Tree-LSTMs is that tree structures help mitigate the problem of preserving state over long sequences of words.
- TreeLSTM in this paper, we introduced a generalization of LSTMs to tree-structured network topologies. The Tree-LSTM architecture can be applied to trees with arbitrary branching factor.