【深度学习十】swin transformer：屠榜各大cv比赛

最新推荐文章于 2024-04-27 10:47:45 发布

cv_我emo了

最新推荐文章于 2024-04-27 10:47:45 发布

阅读量597

点赞数

分类专栏：深度学习文章标签： transformer 深度学习自动驾驶

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45140119/article/details/120447982

版权

概要

Swin transformer: Hierarchical Vision Transformer using Shifted Windows，是微软2021.03.25公布的一篇利用transformer架构处理计算机视觉任务的论文。在图像分割，目标检测各个领域已经霸榜，让很多人看到了transformer完全替代卷积的可能。而且它的设计思想吸取了resnet的精华，从局部到全局，将transformer设计成逐步扩大感受野的工具。

论文链接https://arxiv.org/abs/2103.14030

源码链接https://github.com/microsoft/Swin-Transformer

swin transformer的降采样过程

假设图片的大小是224×224的，窗口大小是固定的，7×7。这里每个方框都是一个窗口，每个窗口是固定有7×7个patch，但是patch的大小是不固定的，它会随着patch merging的操作而发生变化。我们把周边4个窗口的patch拼在一起，相当于patch扩大了2×2倍，从而得到8×8大小的patch。

经过这一系列的操作之后，patch的数目在变少，最后整张图只有一个窗口，7x7个patch。所以我们可以认为降采样是指让patch的数量减少，但是patch的大小在变大。

这是对ViT的一个改进，ViT从头至尾都是对全局做self-attention，而swin-transformer是一个窗口在放大的过程，然后self-attention的计算是以窗口为

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
【深度学习十】swin transformer：屠榜各大cv比赛

概要Swin transformer: Hierarchical Vision Transformer using Shifted Windows，是微软2021.03.25公布的一篇利用transformer架构处理计算机视觉任务的论文。在图像分割，目标检测各个领域已经霸榜，让很多人看到了transformer完全替代卷积的可能。而且它的设计思想吸取了resnet的精华，从局部到全局，将transformer设计成逐步扩大感受野的工具。论文链接https://arxiv.org/abs/2103.
复制链接

扫一扫

专栏目录

博客等级

码龄5年

21
原创

6
点赞

53
收藏

10
粉丝

关注

私信

热门文章

分类专栏

slowfast 5篇
论文 4篇
transformer 2篇
深度学习 12篇
openpose 1篇

最新评论

ubuntu18.04安装openpose流程及踩坑点
我好想长胖: 博主，想问一下为什么运行的时候说caffe是cpu模式不能运行让我checkmode，有什么解决办法吗？
【深度学习十一】slowfast
qq_44294597: 博主，你的视频是在哪里获取的，求分享！感谢
基于mmaction2的slowfast源码
阿锐爱学习: 写个注释呗
mmaction-slowfast loss结果
qq_40946011: 请问loss是每100epcho显示吗，在哪里可以设置吗
DERT原理
Richard. Li: 这能原创，这不就是把别人的PPT搬上来了吗？我真服了你这个老六！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。