多注意力机制和自注意力机制分别引入到LSTM神经网络注意力机制transformer

最新推荐文章于 2024-08-15 16:44:23 发布

没用的啊鸡

最新推荐文章于 2024-08-15 16:44:23 发布

阅读量437

点赞数 11

文章标签：神经网络 lstm transformer

本文链接：https://blog.csdn.net/weixin_66072154/article/details/136364680

版权

2017年，Google 在论文 Atenion is Al you need 中提出了 Transformer模型，其使用 Selif.Atenion 结构取代了在 NLP 任务中常用的 RNN 网络结构。
RNN、LSTM 和 GRU 网络已在序列模型、语言建模、机器翻译等领域中取得不错的效果，循环结构(recuren)的语言模型和编码器-解码器体系结构取得了不错的进展。但是，RNN 固有的顺序属性阻碍了训练样本间的并行化，对于长席列，内存限制将阻碍对训练样本的批量处理。
Transfomer是一种避免循环(recuent) 的模型结构，完全基于注意力机制对输入输出的全局依赖关系进行建模。因为对依赖的建模完全依赖于注意力机制，Transfome使用的注意力机制被称为自注意力(self-attention)。
优势主要有:
1.突破了 RNN 模型不能并行计算的限制，可以充分利用GPU资源
2.可以直接计算每个词之间的相关性，不需要通过隐藏层进行传递。
2.自注意力可以产生更具可解释性的模型。我们可以从模型中检査注意力分布。各个注意头(attention head) 可以学会执行不同的任务。

其存在的不足有:
1.局部特征捕捉能力不足。粗暴的抛弃RNN和CNN虽然非常新颖，但是它也使模型丧失了捕捉局部特征的能力，RNN+CNN+Transtformer的结合可能会带来更好的效果。
2.位置信息编码存在问题，Transfomer失去的位置信息其实在NLP中非常重要，而论文中在特征向量中加入Posion Embeding也只是一个权宜之计，并没有改变Transormer结构上的固有缺陷。
3.可能出现顶层梯度消失。Transfomer模型实际上是由一些残差模块与层归一化模块组合而成。目前最常见的 Transfomer模型都使用了LN，即层归一化模块位于两个残差模块之间。因此，最终的输出层与之前的 Transformer 层都没有直连通路，梯度流会被层归一化模块阻断。
下图为变压器的总体架构:

没用的啊鸡

关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
多注意力机制和自注意力机制分别引入到LSTM神经网络注意力机制transformer

目前最常见的 Transfomer模型都使用了LN，即层归一化模块位于两个残差模块之间。RNN、LSTM 和 GRU 网络已在序列模型、语言建模、机器翻译等领域中取得不错的效果，循环结构(recuren)的语言模型和编码器-解码器体系结构取得了不错的进展。但是，RNN 固有的顺序属性阻碍了训练样本间的并行化，对于长席列，内存限制将阻碍对训练样本的批量处理。粗暴的抛弃RNN和CNN虽然非常新颖，但是它也使模型丧失了捕捉局部特征的能力，RNN+CNN+Transtformer的结合可能会带来更好的效果。
复制链接

扫一扫