解读Vision Transformer (ViT)Paper里的专业术语

最新推荐文章于 2024-06-13 10:56:25 发布

Kaycay

最新推荐文章于 2024-06-13 10:56:25 发布

阅读量980

点赞数 25

分类专栏：机器学习文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_73128634/article/details/139072172

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前言

这篇关于ViT的paper有不少术语：AN IMAGE IS WORTH 16X16 WORDS:
尤其是对于第一次阅读paper的人来说，确实困难。为此我整理了一下paper里出现的主要术语以及的对应的概念解释。

基础术语

saturating performance

性能在达到某一点后,不再显著提升。

tokens

处理和分析字词的基本单位。

downstream tasks

模型经过预训练之后的任务,如微调或者迁移学习。

fine-tune

模型在经过大规模的数据预训练后,再进一步在特定的小数据集上进行进一步训练。

self-supervision

自监督训练————模型通过数据本身生成标签,而不是依赖人工标注的标签。

validation accuracy

用测量训练过程中,评估各个阶段的性能,从而有助于调整超参数。

few shot learning

使用少量数据进行训练。

weight decay

一种正则化技术,用于防止模型过拟合。具体地，这使得模型会更容易去学习小的权重参数，而去学习较大的权重参数时会受到"惩罚"。

dropout

一种正则化技术,用于防止模型过拟合。具体指在训练过程中随机丢掉一些神经元。

label smoothing

一种正则化技术,也是用于防止过拟合。
把1换成小一点的值,把0换成大一点的值,目的是不要让模型太"自信"。

early stopping

一种正则化技术,防止过拟合。实时跟踪模型在验证集的性能,当发现性能开始恶化时提前停止训练。

ViT相关

embeddings

嵌入是一个向量，它可以看作是图像的数字表现形式。重要的是，这个向量是可学习的，可优化的。

patch embeddings

patch embeddings 是一个过程: 将图像拆分为多个块，然后把这些块排列成一个向量,对于每一个块，都通过线性映射到高维空间。
在这里插入图片描述

class embedding

类别嵌入用于学习整个图像的特征，从而实现图像分类。

postition embeddings

由于图片被分割成了patch 序列，position embedding可以学习各个patch在原始图像的位置信息。

embedding dimension

图片被分成patch，每个patch可以用一个向量表示，这个向量的长度就是embedding dimension。

Residual connections

也叫做skip connection，如果神经网络很深，反向传播过程中会出现梯度爆炸或梯度消失的情况。使用了残差连接，可以让保留输入的原始信息，同时由于单位矩阵的加入，使得梯度在传播中不会无限放大或者消失。
在这里插入图片描述

Encoder

多个(Norm+MSA+残差连接+Norm+MLP+残差连接)叠在一起。
在这里插入图片描述

inductive bias

归纳偏差:指的是模型学习时依赖的priors,如translation equivariance 、局部性。

neighborhood structure

领域结构:指的是图像像素之间的局部关系。卷积操作就利用了这种关系。

translation equivariance

图像发生平移,输出的特征图与原来一致。

Multi-head Attention

使用多次self-attention。

Layer Normalization

层规范化是一种正则化技术，它可以让每一层的输出值更加稳定。统一标准后更利于学习。例如学习学习爬楼梯，若每一阶楼梯的长宽高都不统一，那么你会学得很慢,因为阶梯的规格在变化。相反的，如果统一标准后，你每尝试爬一阶楼梯都会为爬下一阶楼梯积累非常有用的经验。

Hybrid architecture

结合不同模型的优势,用于提升性能的架构。CNN+transformer
具体地，关于分割图片，并排列成序列这一步骤，我们可以使用CNN来实现：让卷积核的kernel_size=patch_size，stride=patch_size即可。另外其实卷积核的数量就相于patch embedding的维度D。

结语

以上内容来自个人学习经验，若有疏漏，请不吝指正。

关注

25
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
解读Vision Transformer (ViT)Paper里的专业术语

我整理了一下paper里出现的主要术语以及的对应的概念解释。以上内容来自个人学习经验，若有疏漏，请不吝指正。
复制链接

扫一扫

专栏目录

Kaycay CSDN认证博客专家 CSDN认证企业博客

码龄2年

8: 原创

73万+: 周排名

9万+: 总排名

3255: 访问

: 等级

168: 积分

63: 粉丝

86: 获赞

4: 评论

43: 收藏

私信

关注

热门文章

分类专栏

算法 5篇
机器学习 2篇
Python 1篇

最新评论

高斯消元(清晰、不易错)
CSDN-Ada助手: 恭喜你写了第6篇博客，标题为“高斯消元(清晰、不易错)”！不仅内容清晰易懂，而且解释方法也很到位，让读者更容易理解高斯消元的原理。希望你能继续坚持创作，分享更多有趣的数学知识和算法原理。同时，建议你在下一篇博客中可以探讨一下高斯消元在实际问题中的应用，或者与其他算法进行比较分析，以便读者更全面地了解这一算法的优劣势。期待你的下一篇作品！
Python全局解释器锁GIL有多重要？
CSDN-Ada助手: 恭喜您发布了新的博客！标题“Python全局解释器锁GIL有多重要？”听起来很有意思。继续保持写作的热情和努力，这对于提升自己的技术水平和分享知识都非常重要。或许下一篇博客可以深入探讨Python中其他的重要特性或者常见的问题，这样可以吸引更多读者，也可以更好地拓展自己的知识领域。期待您的下一篇作品！
连续因子(PTA)
CSDN-Ada助手: 恭喜用户在连续因子(PTA)领域写下了第三篇博客！持续创作是非常难能可贵的，希望您能够继续坚持下去，分享更多有价值的内容。建议在接下来的创作中，可以深入探讨PTA的应用领域、未来发展趋势，或者结合实例进行案例分析，让读者更加深入地了解这一主题。期待您的更多精彩文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
[蓝桥杯2022初赛] 寻找整数（python）
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
[蓝桥杯2022初赛] 寻找整数（python）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618202406。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。