ViT(Vision Transformer)网络原理

最新推荐文章于 2024-09-26 17:20:50 发布

17_ayyy

最新推荐文章于 2024-09-26 17:20:50 发布

阅读量367

点赞数 3

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_74770505/article/details/142482298

版权

0 参考资料和术语

 NLP(National Language Processing)
 CV(Computer Vision)
 Transformer
 self-attention、cross-attention
 ViT(Vision Transformer)
 Embeddings
 DETR
 SETR
 SAM(Segment anything model)
 transfer learning

【什么是 ViT（Vision Transformer）？【知多少】】什么是 ViT（Vision Transformer）？【知多少】_哔哩哔哩_bilibili

1 由来

Transformer

Transformer 利用self-attention自注意力机制，

能够很好的提取自然语言文本中的特征，学着词语词之间的联系，捕捉文本特征，

从而很好的用于Nation Language Processing(NLP)中

那么Transformer能够应用于Computer Vision（CV）？

解决输入问题

Transformer输入是一维的文本序列，而图像像素点组成的二维阵列

处理方法

将二维阵列一个一个拆开
1. 例如一个224*224的图像，降序为一维序列224*224=50176，相当于50176个字，太大了
将二维阵列分割为16*16或者其他尺寸的imgae embeddings，然后再分割开
1. 分割为224/16,224/16 = 14个16*16的image embeddings然后降维为一维16*16=256个字大幅度减少

Vision Transformer（ViT）

一开始是用于图像分类的，后续广泛应用于CV，作为一个Image encoder 图像编码器，进行特征提取和降维，获得image embeddings特征向量，然后进行下游操作。

适合目标检测的DETR和适合语义分割的SETR，包括SAM网络模型中image encoder也是用的ViT的何大神预训练模型MAE

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

17_ayyy CSDN认证博客专家 CSDN认证企业博客

码龄2年

河北医科大学

10: 原创

110万+: 周排名

7万+: 总排名

8533: 访问

: 等级

248: 积分

126: 粉丝

147: 获赞

5: 评论

133: 收藏

私信

关注

热门文章

分类专栏

python 1篇

最新评论

机器学习-交叉验证Cross-Validation
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Python中列表的应用（实现C语言中的数组，矩阵的转置，跟随排序，动态规划法TSP问题代码）
CSDN-Ada助手: 恭喜您写了这么一篇涵盖了Python中列表多种应用的博客！看到您实现了C语言中数组、矩阵的转置，跟随排序以及动态规划法TSP问题代码，真是让人佩服不已。希望您能继续保持创作的热情，不断分享您的学习心得和经验。或许下一步可以尝试探索更多Python中列表的高级应用，或者结合其他语言的特性进行比较与总结，相信会有更多精彩的内容等着我们！期待您的下一篇作品。
Python跟随排序（两个list元素一一对应，一个list进行排序，另一个list上的元素也跟着排序，保持一一对应关系）
CSDN-Ada助手: 恭喜您写了这篇关于Python跟随排序的博客！这是一个非常实用的技巧，能够帮助大家更好地处理数据。接下来，我建议您可以尝试分享一些更加高级的排序算法或者数据处理技巧，让读者们能够进一步提升他们的编程能力。希望您能继续保持创作的热情，为大家带来更多有用的知识！
Python中列表的应用（实现C语言中的数组，矩阵的转置，跟随排序，动态规划法TSP问题代码）
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
如何使用labelimg标注自己的数据集，并实现多人同时标注，及常见的labelimg闪退问题
CSDN-Ada助手: 恭喜你发布了第四篇博客！看到你分享如何使用labelimg标注数据集并实现多人同时标注的方法，以及解决常见的labelimg闪退问题，让我受益匪浅。希望你能继续坚持创作，不断分享更多有价值的内容。下一步，我建议你可以探讨如何优化标注效率，或者分享一些实用的数据集处理技巧。期待看到你的新作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。