Enhanced LSTM for Natural Language Inference

该博客介绍了ESIM(Enhanced Sequential Inference Model),一种在自然语言推理任务中表现出色的模型。ESIM通过精心设计的LSTM序列推理结构,无需复杂的网络架构,就能超越先前的模型。它引入了语法树信息,通过树型LSTM增强语义表达,并利用注意力机制捕获局部特征。实验表明,ESIM在SNLI数据集上实现了88.6%的准确率,提升了模型的智能推理能力。
摘要由CSDN通过智能技术生成

在这里插入图片描述

学习目标

在这里插入图片描述

论文导读

论文研究背景、成果及意义

研究背景

  • 无论是人,还是机器。推理的能力都是其具备智慧的一种体现,推理能力越强,越具备智慧。不断改进模型,提高模型效果,进而提高机器的智能。
  • SNLI数据集为自然语言推理(NLI)提供了大规模训练的数据集和统一的评价标准,激发了研究者的热情。

研究成果

在这里插入图片描述
在这里插入图片描述
syn.tree句法树作用:增强语义表达,整体表现锦上添花。
用语法树提取语义特征。

论文泛读

论文小标题

在这里插入图片描述

摘要

在这里插入图片描述

  • 推理是人和机器智能的关键体现
  • SNLI为推断模型提供了良好的数据支撑
  • 我们的模型在SNLI测试集准确率中取得了最佳成绩

Unlike the previous top models that use very complicated network architectures, we first demonstrate that carefully designing sequential inference models based on chain LSTMs can outperform all previous models.

不像之前的最佳的模型那样通过堆叠模型复杂度来获得优异效果,我们论证了:基于LSTM的序列推理模型的性能可能超过之前所有模型。
【来自Introduction】
为什么之前的模型结构复杂还没有ESIM效果好?答:之前的模型结构对模型推理能力的挖掘不够深入。

Based on this, we further show that by explicitly considering recursive architectures in both local inference modeling and inference composition, we archieve additional improvement.

基于上述模型(指ESIM),我们在局部推理建模层和推理组合层使用了递归结构(指树型LSTM)模型的效果进一步提升。

We show that by explicitly encoding parsing information with recursive networks in both local inference modeling and inference composition and by incorporating it into our framework, we achieve additional improvement, increasing the performance to a new state of the art with an 88.6% accuracy.

将语法树融入模型,模型在SNLI数据集上的准确率高达88.6%

摘要核心

  • 作者不像之前网络那样堆叠模型结构
  • 无需复杂网络结构,精心设计基于LSTM的模型依然有强劲的效果
  • 融合语法树结构,使得原本就已足够强大的模型效果更上一层楼

论文精读

ESIM整体结构

在这里插入图片描述语法树与ESIM在形式上保持一致,语法树在输入编码层和推理组合层采用树型LSTM的结构,语法树部分的输出与ESIM的输出在特征维度上拼接起来,一起做结果预测。两部分网络结构是可以独立的。
ESIM执行流程:
输入编码层: 输入为两句话,图中表现为前提(Premise)和假设(Hypothesis),在输入编码层,两句话进行的处理为把句子中的单词转换为词向量,这样一句话就变成了一个矩阵或者说是一个向量组成的一个序列,二将两句话的矩阵分别送入各自的双向LSTM中,进行语义特征抽取,这是很基本的特征提取操作。
局部推理建模层: 主要为注意力运算,注意力机制的运用是为了捕获文本间的局部特征。在ESIM中,两句文本生成注意力矩阵后,又通过element-wise方法构造了一些特征,基于element-wise的减法和乘法在ESIM中也有体现。
推理组合层: 这一层的表示图与输入编码层一模一样,实际上也没有差别,这一层的网络结构也是双向lstm,可以理解为在捕获文本间注意力特征之后,进一步做融合提取语义特征的工作,聚合的作用是压缩特征。这一路走下来都是特征矩阵,目标是做softmax分类,需要一个特征向量,比较聚合模型采用的方法是把最终的矩阵展开,展成一个向量。ESIM采取平均池化和最大池化两种池化方式,在图中表现为输出预测层中,将两种池化的方式进行拼接,再接softmax做最后的分类。

输入编码

** 标记说明:**
在这里插入图片描述
a、b已经转化成词向量的形式。
在这里插入图片描述
经过各自的BiLSTM进行语义特征的提取。

在这里插入图片描述

在这里插入图片描述
语法树:
此部分为了解部分内容。
在这里插入图片描述在这里插入图片描述
树型LSTM有两个遗忘门,分别是左遗忘门和右遗忘门。对于左遗忘门,需要左孩子的cell状态Ct-1L以及左右两孩子的输入特征ht-1L和ht-1R,当前部分的输入xt,普通LSTM只需要Ct-1和ht-1。至于输入门和输出门,树型LSTM和普通的LSTM并没有太大的差异,只是树型LSTM不管哪个门,都需要左右两个孩子的输入特征。下图为两者的公式:
在这里插入图片描述树型LSTM与普通LSTM相比较,多了一个遗忘门以及每个位置需要两个孩子的特征向量以外,结构上并没有太大的区别,核心框架一模一样。所谓的语法树LSTM编码为文本经过语法结构后,送入到树型LSTM网络

局部推理建模

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

推理组合与输出预测

在这里插入图片描述
这里的平均池化操作是在句子长度的方向上进行的
在这里插入图片描述
在这里插入图片描述

ESIM整体结构

在这里插入图片描述

实验设置与结果分析

实验细节

  • 优化器使用Adam,第一参数为0.9,第二参数为0.999
  • 学习率lr = 0.0004,batch_size = 32
  • 使用预训练词向量< 300-D-Glove 840B >
  • 所有LSTM隐藏单元数设置为300
  • dropout比例为0.5

实验结果

从模型参数量、训练集准确率、测试集准确率三个维度考量模型。
在这里插入图片描述

消融实验

在这里插入图片描述可见,全连接网络层提取语义特征的能力不如双向LSTM
(25)可见,只使用语法树的结果与ESIM的使用不相上下,说明ESIM和语法树对文本间的关系推断标准类似。
但是训练一个语法树的特征需要40+小时,而ESIM只需要6个小时。

注意力可视化的实验

在这里插入图片描述判断sitting与standing是冲突的,就是后面神经网络所需要做的了

论文总结

  • 深度挖掘了文本间的语义、关系特征。
    (双向LSTM->注意力交互 ->特征构造、拼接 ->双向LSTM ->特征压缩 ->输出预测)
  • 加入了文本的语法结构信息。
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值