ML笔记：关于Transformer

最新推荐文章于 2024-08-17 22:04:11 发布

X-ocean

最新推荐文章于 2024-08-17 22:04:11 发布

阅读量118

点赞数

分类专栏：图像处理与计算机视觉文章标签：深度学习人工智能 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xieocean/article/details/129062884

版权

图像处理与计算机视觉专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章详细介绍了注意力机制在深度学习中的应用，包括self-attention和multi-attention的概念，以及Transformer的结构，特别是Encoder和Decoder的角色。此外，还提到了ViT模型，它是如何利用Transformer的Encoder对图像进行特征提取的。

摘要由CSDN通过智能技术生成

参考：
[1]. https://aistudio.baidu.com/aistudio/projectdetail/2025419?channelType=0&channel=0

Attention

个人认为所谓 attention机制，其实只是一种启发自人类的“注意力”的结构。至于有没有“注意力”的实际作用，那不好说，反正加进去了，模型有效果，就行。

1.2 self-attention

根据参考[1]中列出的图片，其实可以这样理解：假定输入为a，那么进行如下计算：

$\text{[math]}$

得到的b就是attention的值

1.3 multi-attention

其实就是把self-attention变得更加复杂了。这里就不搬运了，可以直接看参考[1]

Transformer整体结构及编码器、解码器

下面是我们通常看到的架构：

其中Encoder如下：

解码器部分：

红框1：mask操作，是对当前单词和之后的单词做mask操作（NLP中的操作）因为是预测后面的词，所以不能让网络看见后面的词

红框2：进入Decoder的两条数据，是由Encoder产生的k、v，Decoder只提供q。

3. ViT

ViT的思路很简单：

直接把图像分成固定大小的patchs，然后通过线性变换得到patch embedding，这就类比NLP的words和word embedding，由于transformer的输入就是a sequence of token embeddings，所以将图像的patch embeddings送入transformer后就能够进行特征提取从而分类了。

ViT模型原理如下图所示，其实ViT模型只是用了transformer的Encoder来提取特征（原始的transformer还有decoder部分，用于实现sequence to sequence，比如机器翻译）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML笔记：关于Transformer

transfromer 笔记
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。