A Compare-Aggregate Model For Machine Text Sequences

最新推荐文章于 2022-10-13 19:37:07 发布

尧景

最新推荐文章于 2022-10-13 19:37:07 发布

阅读量146

点赞数

分类专栏：深度之眼文本匹配文章标签：神经网络自然语言处理

本文链接：https://blog.csdn.net/ying_m/article/details/118378327

版权

深度之眼文本匹配专栏收录该内容

9 篇文章 3 订阅

订阅专栏

在这里插入图片描述

学习目标

在这里插入图片描述

论文导读

论文研究背景、成果及意义

研究背景

许多自然语言处理问题都需要对两个或更多的句子进行匹配、交互，然后做出决定。
例如：文本蕴含需要判断一句假设是否可以由前提推出；答案抽取型机器阅读理解需要匹配问题与文章，返回答案所在原文的起始与末尾位置。

论文泛读

论文小标题

在这里插入图片描述

摘要

摘要核心：

1.使用了”比较-聚合“框架模型。利用了词嵌入作为输入，CNN网络作为最后的聚合函数。
2.注重于不同的比较函数来对输入文本的向量进行匹配。
3.使用四份数据集来评估实验模型。
4.有时，比较函数选择基于element-wise的简单函数比复杂的神经网络好。

论文精读

注意力机制

注意力向量是一个加权向量，想要得到注意力向量要先求加权系数。
加权系数一般由softmax归一化序列得到，这个序列由解码器上一位置的得出与编码器每个位置的特征向量依次计算相关打分得到。
打分函数可选点积或神经网络。

Compare-Aggregate 整体结构

问题描述与标记
在这里插入图片描述所进行实验均为有监督训练。输入数据格式为(Q,A,y)的三元组形式。
整体结构：
预处理层：将输入文本转换成词向量后，进行语义特征提取，通常使用的方法为双向LSTM，但作者采用的是简化LSTM结构；
注意力层：文本间注意力机制的使用，完成Q与A生成H的任务；H的列维度与A是对应的，H中的每一个向量都是A的一个加权和；
比较层：比较的两部分为A和H，比较的结果为t，长度为A；
聚合层：使用CNN网络进一步提取特征，得到向量r；r向量经过全连接和softmax实现最终的分类。

预处理与注意力层

(学习一下，注意力在模型中是怎么使用的，用在了模型中哪一部分，起到了什么作用，带来了什么效果等)

预处理

没有使用常见的双向LSTM网络进行语义特征抽取，作者采用了一种简化的LSTM/GRU的门控结构对输入文本进行处理。
在这里插入图片描述
Sigmoid部分可理解为LSTM的输入门。Tanh部分是正常的全连接激活函数，sigmoid控制tanh部分的输出比重。W，b为权重系数与偏置项，式中叉乘代表克罗内克积，具体体现为将列向量b复制Q份拼接起来组成一个1×Q的矩阵与W_iQ的结果矩阵维度保持一致。Q是由多个向量拼接起来的，并不像图片那样作为一个整体，偏置向量要和输入保持统一，输入本质上是一条一条的词向量，并不是一个大矩阵，因此偏置也应是向量的形式，为了统一计算，才不得已扩展成矩阵。

注意力层

注意力矩阵G与注意力运算结果H
在这里插入图片描述
G中，softmax操作为对列方向softmax
运算结果H维度与A一致。H中浓缩了A中每个单词对文本Q不同位置注意力程度的加权。

比较与聚合层

比较函数

比较层的输入： H与A^—
记两者第j个位置的列向量为h_j与a_j^—。比较函数为f，t_j为比较后的输出。
一、神经网络(NN)
在这里插入图片描述
参数W维度l×2l，b为l维向量。

二、神经张量网络(NTN)

张量T维度l×l×l，本质为l个l×l矩阵。向量a_j^—与每个矩阵运算后得到的所有l维向量拼接后再与h_j向量做运算。

三、欧氏距离+余弦相似度（EucCos）
在这里插入图片描述
提取并拼接了h_j与a_j^—的欧式距离与余弦相似度作为比较的结果。
四、对应位置差运算(SUB)

做差后再平方，不会出现负数。只保留两者差异性程度
五、对应位置积运算(MULT)

六、NN+Sub+Mult(一+四+五)
在这里插入图片描述
捕获了注意力结果与输入之间的差异性特征(差运算)、相似性特征(积运算)。
再利用神经网络进行深度特征抽取，取多方之长，集多种方法于一身。

聚合函数

每个位置比较后的结果拼接起来，送入单层CNN网络
在这里插入图片描述
最终r的维度为n×l向量，n为CNN窗口，文中使用的CNN结构为text-CNN中所使用的。

实验设置与结果分析

实验数据集

1.Movie-QA:电影故事理解与问答数据集
在这里插入图片描述 2.InsuranceQA:保险相关问答数据集
给定一个问句(题干)，需要从备选项中选出一条最符合题干的答案。
3.WikiQA:开放领域问答数据集
4.SNLI:文本蕴含数据集

实验处理

在这里插入图片描述

在这里插入图片描述 w^T的作用是用作维度的转换。

Compare-Aggregate整体结构

在这里插入图片描述

实验结果

论文使用的Comparison-aggregate模型在四份数据集上均取得了优异的结果
SubMult+NN是综合表现最优秀的比较函数
一些很简单的比较函数也能表现出逼近神经网络模型的效果(如EucCos在MovieQA上的表现)

论文总结

关键点

沿用comparison-aggregate框架并改进
利用多份数据集 证明模型的泛华性
利用多种比较函数 探究文本交互的最佳方式

创新点

运用简化门控单元 提取语义特征
利用注意力机制 完成句子间交互
利用向量的差和积 进行特征提取
拓展性强 ，对于不同数据集(任务)，模型的改动很小

尧景

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A Compare-Aggregate Model For Machine Text Sequences

目录学习目标论文导读论文研究背景、成果及意义研究背景相关工作相关工作与研究成果论文泛读论文小标题摘要论文精读注意力机制Compare-Aggregate 整体结构预处理与注意力层预处理注意力层比较与聚合层比较函数聚合函数实验设置与结果分析实验数据集实验处理Compare-Aggregate整体结构实验结果论文总结关键点创新点学习目标论文导读论文研究背景、成果及意义研究背景许多自然语言处理问题都需要对两个或更多的句子进行匹配、交互，然后做出决定。例如：文本蕴含需要判断一句假设是否可以由前提推出
复制链接

扫一扫