目录
学习目标
论文导读
论文研究背景、成果及意义
研究背景
许多自然语言处理问题都需要对两个或更多的句子进行匹配、交互,然后做出决定。
例如:文本蕴含需要判断一句假设是否可以由前提推出;答案抽取型机器阅读理解需要匹配问题与文章,返回答案所在原文的起始与末尾位置。
相关工作
一、孪生神经网络
利用相同参数的网络接受两个输入,经RNN或CNN提取特征,后用余弦相似度或是其他方法进行分类。
二、注意力网络
软注意力(soft-attention)结构为了改善编码器-解码器模型的性能而应用机器翻译领域,成功显著,后被广泛应用于机器阅读理解、文本蕴含、智能问答等。
三、比较–聚合网络
何谓“比较”?
- 交互。如图所示,C和D的生成都用到了A和B。我们说C、D都是A、B交互后的产物。A、B通过某种比较运算生成了C、D。并非通常理解的谁比谁大,谁比谁多的问题。
何谓“聚合”?
- 提取特征。全连接网络、CNN、RNN均能做到特征的提取、挖掘。均可充当聚合模块。聚合过程一般把文本的特征矩阵转化为特征向量,后跟softmax分类完成文本匹配任务。
相关工作与研究成果
前人研究工作中”比较-聚合“类模型出现的不足:
一、前人的模型只应用于一到两个任务,不能体现”比较-聚合“框架的泛华性。
【说明】”比较-聚合“突出的是一个思想,本身不针对具体的任务,在不偏离中心思想的情况下搭建模型,如果模型适用于多种任务,说明对这一思想的运用比较到位。本篇论文提出的模型只需要做细微的调整,就可以应用在四份不同的数据集(一份文本蕴含、三份智能问答),作者以此来证明模型的通用性强。
**本篇论文:**使用了四份不同的数据集证明模型结果的强拓展性。
二、前人的研究中对”比较“部分的组成单元选择过于简略,比较函数单一。
**本篇论文:**使用了六种不同的比较函数,实验充足,结果说服力强。
实验结果:
- ①论文模型在四份数据集上达到了当时的最优结果;
- ②element-wise函数作为交互效果显著。
论文泛读
论文小标题
摘要
摘要核心:
- 1.使用了”比较-聚合“框架模型。利用了词嵌入作为输入,CNN网络作为最后的聚合函数。
- 2.注重于不同的比较函数来对输入文本的向量进行匹配。
- 3.使用四份数据集来评估实验模型。
- 4.有时,比较函数选择基于element-wise的简单函数比复杂的神经网络好。
论文精读
注意力机制
- 注意力向量是一个加权向量,想要得到注意力向量要先求加权系数。
- 加权系数一般由softmax归一化序列得到,这个序列由解码器上一位置的得出与编码器每个位置的特征向量依次计算相关打分得到。
- 打分函数可选点积或神经网络。
Compare-Aggregate 整体结构
问题描述与标记
所进行实验均为有监督训练。输入数据格式为(Q,A,y)的三元组形式。
整体结构:
预处理层:将输入文本转换成词向量后,进行语义特征提取,通常使用的方法为双向LSTM,但作者采用的是简化LSTM结构;
注意力层:文本间注意力机制的使用,完成Q与A生成H的任务;H的列维度与A是对应的,H中的每一个向量都是A的一个加权和;
比较层:比较的两部分为A和H,比较的结果为t,长度为A;
聚合层:使用CNN网络进一步提取特征,得到向量r;r向量经过全连接和softmax实现最终的分类。
预处理与注意力层
(学习一下,注意力在模型中是怎么使用的,用在了模型中哪一部分,起到了什么作用,带来了什么效果等)
预处理
没有使用常见的双向LSTM网络进行语义特征抽取,作者采用了一种简化的LSTM/GRU的门控结构对输入文本进行处理。
Sigmoid部分可理解为LSTM的输入门。Tanh部分是正常的全连接激活函数,sigmoid控制tanh部分的输出比重。W,b为权重系数与偏置项,式中叉乘代表克罗内克积,具体体现为将列向量b复制Q份拼接起来组成一个1×Q的矩阵与WiQ的结果矩阵维度保持一致。Q是由多个向量拼接起来的,并不像图片那样作为一个整体,偏置向量要和输入保持统一,输入本质上是一条一条的词向量,并不是一个大矩阵,因此偏置也应是向量的形式,为了统一计算,才不得已扩展成矩阵。
注意力层
注意力矩阵G与注意力运算结果H
G中,softmax操作为对列方向softmax
运算结果H维度与A一致。H中浓缩了A中每个单词对文本Q不同位置注意力程度的加权。
比较与聚合层
比较函数
比较层的输入: H与A—
记两者第j个位置的列向量为hj与aj—。比较函数为f,tj为比较后的输出。
一、神经网络(NN)
参数W维度l×2l,b为l维向量。
二、神经张量网络(NTN)
张量T维度l×l×l,本质为l个l×l矩阵。向量aj—与每个矩阵运算后得到的所有l维向量拼接后再与hj向量做运算。
三、欧氏距离+余弦相似度(EucCos)
提取并拼接了hj与aj—的欧式距离与余弦相似度作为比较的结果。
四、对应位置差运算(SUB)
做差后再平方,不会出现负数。只保留两者差异性程度
五、对应位置积运算(MULT)
六、NN+Sub+Mult(一+四+五)
捕获了注意力结果与输入之间的差异性特征(差运算)、相似性特征(积运算)。
再利用神经网络进行深度特征抽取,取多方之长,集多种方法于一身。
聚合函数
每个位置比较后的结果拼接起来,送入单层CNN网络
最终r的维度为n×l向量,n为CNN窗口,文中使用的CNN结构为text-CNN中所使用的。
实验设置与结果分析
实验数据集
1.Movie-QA:电影故事理解与问答数据集
2.InsuranceQA:保险相关问答数据集
给定一个问句(题干),需要从备选项中选出一条最符合题干的答案。
3.WikiQA:开放领域问答数据集
4.SNLI:文本蕴含数据集
实验处理
wT的作用是用作维度的转换。
Compare-Aggregate整体结构
实验结果
- 论文使用的Comparison-aggregate模型在四份数据集上均取得了优异的结果
- SubMult+NN是综合表现最优秀的比较函数
- 一些很简单的比较函数也能表现出逼近神经网络模型的效果(如EucCos在MovieQA上的表现)
论文总结
关键点
- 沿用comparison-aggregate框架并改进
- 利用多份数据集 证明模型的泛华性
- 利用多种比较函数 探究文本交互的最佳方式
创新点
- 运用简化门控单元 提取语义特征
- 利用注意力机制 完成句子间交互
- 利用向量的差和积 进行特征提取
- 拓展性强 ,对于不同数据集(任务),模型的改动很小