Deep Learning中Transformer的学习笔记

小张的进步之旅

已于 2023-05-29 17:00:16 修改

阅读量126

点赞数

文章标签：深度学习 transformer 学习

于 2023-05-29 16:58:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44897685/article/details/130920338

版权

目录

1. Tranformer与RNN对比

1.1 RNN模型缺点:

1.2 Transformer优点:

2. Transformer的结构

2.1 Attention 注意力机制作用的流程

首先就是那篇最著名的文章《Attention is all you need》, 链接如下: https://arxiv.org/abs/1706.03762

1. Tranformer与RNN对比

RNN Model: Recurrent Neural Networks RNN模型一般用于时间序列的预测,一般把信息存在 $h_t$ 和h $h_{t-1}$ 的信息上,所以时点上携带的信息比较大.

1.1 RNN模型缺点:

Slow to train 训练的速度特别慢
Long sequences lead to vanishing/exploding gradients
LSTM is slower

1.2 Transformer优点:

Attention mechanism has an infitnite reference window 注意力机制有无限的参考时间窗口

2. Transformer的结构

在使用卷积网络的时候, 是使用较小的窗格来进行计算,所以当位置比较远的时候,可能会需要再比较远的地方才能找到信息. 而transformer则可以一起看到.

文章中结构的图示:

在图中左边是编码器,右边是解码器.

与batchNorm对比, LayerNorm用的比较多的原因是因为在时序序列中,样本数据的量可能在变化

2.1 Attention 注意力机制作用的流程

Attention是Transformer的重点, 主要的目标是为了找到input里面最重要的特征 (identify and attend to most important features in input.)

Attention: What part of the input should we focus?

注意力机制分为加性和乘性. N为编码器的层数的堆叠, 每一个子层之间通过残差连接.在解码器的连接也是通过残差连接. Masked Multi-Head Attention, 带有掩码的注意力机制,也就是在training的时候不会看到t后面的数据.

Attention在Transformer里面的使用方式(编码器Encoder-解码器 Decoder):

编码位置信息 Encode position information
提取查询、键、值用于搜索 Extract query, key, value for search
计算注意力加权 Compute attention weighting
提取高度关注的特征 Extract features with high attention

参考资料:

https://www.youtube.com/watch?v=TQQlZhbC5ps

https://www.youtube.com/watch?v=nzqlFIcCSWQ

https://arxiv.org/abs/1706.03762

https://www.youtube.com/watch?v=ySEx_Bqxvvo&t=117s

小张的进步之旅

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Deep Learning中Transformer的学习笔记

首先就是那篇最著名的文章《Attention is all you need》, 链接如下: https://arxiv.org/abs/1706.03762。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。