视觉transformer面试题：vit

weixin_45955767

已于 2022-03-01 21:21:43 修改

阅读量1.4k

点赞数

分类专栏：深度学习计算机视觉文章标签： transformer 深度学习机器学习

于 2022-03-01 21:20:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45955767/article/details/123216493

版权

深度学习同时被 2 个专栏收录

16 篇文章

订阅专栏

计算机视觉

3 篇文章

订阅专栏

本文探讨了Transformer在图像处理中如何通过patch整合信息并解释为何不采用简单求和。作者揭示了注意力机制与卷积感受野的关系，强调了Transformer在捕捉全局信息方面的独特能力，同时解析了位置编码在保持结构信息的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

输入端适配

通过patch0与每个patch计算value来整合信息最后分类

因为transformer的输入输出维度是一致的，transformer block的任何一个输出无法进行很好的分类

为什么不使用输出patch相加求平均？patch 可能是1616的数量,然后哪怕256256的大小，输出向量也无法接受

位置编码

图像切分重排后丢失位置信息，并且transformer计算无需位置信息

结果分析

attention的距离等价于Conv中的感受野大小

可以看到越深的层数，attention跨的距离越远

但是在越底层，也有的head可以覆盖很远的距离

这两点可以看到transformer确实在负责global信息整合

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。