vision transformer论文笔记及模型解析【笔记】

最新推荐文章于 2024-05-13 13:14:16 发布

乘月---CV

最新推荐文章于 2024-05-13 13:14:16 发布

阅读量248

点赞数 5

文章标签： pytorch 深度学习 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54372361/article/details/136024256

版权

论文中给出了VIT模型架构，整体思想是先将图像分割成固定大小的块，线性嵌入每个块，并添加位置嵌入，并将生成的矢量序列提供给标准Transformer编码器。

流程就是，首先将输入图片(224x224)按照16x16大小的Patch进行划分，划分后会得到196个Patches，然后接着通过线性映射将每个Patch映射到一维向量中，每个Patche数据shape为[16, 16, 3]（其中3为通道数）通过映射得到一个长度为768的向量（也称为token）。

之后我们得到196个长度为768的向量，首先是添加类别编码，我们为每个token添加类别编码，即[196,768]与[1,768]拼接都得到[197，768]的二维向量。接下来就是Position Embedding，添加位置编码后矩阵形状不变即：[197,768]。

然后送入编码器（Transformer Encoder），Transformer Encoder的组成，如图，由多头自注意和MLP块的交替层组成。在每个块之前应用层范数（Norm），在每个块之后应用残差连接。

MLP Head预测头

通过Transformer Encoder后输出的shape和输入的shape是保持不变的，只需要提取[class]token生成的对应结果就行，从[197，768]中抽取出[class]token对应的[1,768]。接着我们通过MLP Head得到我们最终的分类结果。

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

乘月---CV CSDN认证博客专家 CSDN认证企业博客

码龄4年

7: 原创

152万+: 周排名

23万+: 总排名

3151: 访问

: 等级

172: 积分

45: 粉丝

66: 获赞

3: 评论

58: 收藏

私信

关注

热门文章

最新评论

vision transformer论文笔记及模型解析【笔记】
CSDN-Ada助手: 恭喜您发布了第7篇博客，标题为“vision transformer论文笔记及模型解析【笔记】”！阅读了您的文章，对于对vision transformer的深入解析和模型笔记印象深刻。建议在下一篇博客中可以尝试将理论知识与实际案例相结合，或者分享一些实际操作中的经验和心得。期待您的下一篇作品！
Faster R-cnn模型结构及算法解析
CSDN-Ada助手: 恭喜您撰写了这篇关于Faster R-cnn模型结构及算法解析的博客，内容非常深入，对于理解和应用该模型有很大帮助。希望您能继续保持创作，分享更多关于深度学习模型的知识和经验。或许下一步可以考虑结合实际案例，分析模型在实际应用中的优势和不足之处，这样更有助于读者理解和应用。期待您的下一篇作品！
YOLOV5模型结构及算法解析笔记
CSDN-Ada助手: 非常感谢您分享关于YOLOV5模型结构及算法的解析笔记！您的博客内容非常详尽，对于想深入了解YOLOV5模型的人来说无疑是一份宝贵的资料。持续创作博客不仅可以帮助他人，也能够加深您对于该模型的理解。作为下一步的创作建议，我希望您能够结合实际应用场景，分享一些实用的技巧和经验，这样读者能够更好地将YOLOV5模型应用到实际项目中。再次恭喜您，并期待您更多精彩的博客！
YOLOV3模型结构及算法解析笔记
CSDN-Ada助手: 恭喜你写了第三篇博客！非常喜欢你对YOLOV3模型结构及算法的解析笔记。你的文章深入浅出，让人能够轻松理解这个复杂的主题。希望你能继续保持这样的创作热情，为我们带来更多精彩的内容。对于下一步的创作建议，我认为你可以考虑分享一些实际应用中使用YOLOV3模型的案例，这将进一步拓宽读者的视野。谢谢你的分享，期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
YOLO学习笔记（模型结构及算法解析）
CSDN-Ada助手: 恭喜你开始博客创作！标题看起来很有趣，我对YOLO模型结构和算法解析很感兴趣。不过我觉得如果能够加入一些实际案例或者应用场景的分析会更加丰富和有趣。希望你可以在下一篇博客中分享一些实际应用的案例，期待你的下一篇作品！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。