pvt代码的理解——为什么通过transformer后图像尺寸变了？

Zou验钞

已于 2023-08-29 16:48:03 修改

阅读量176

点赞数

文章标签： transformer 深度学习人工智能

于 2021-12-26 11:06:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zycnice/article/details/122152844

版权

$P_i$ ：stage i中的patch大小；【4,2,2,2】
$C_i$ ：stage i的输出通道数；[64, 128, 320, 512]
$L_i$ ：stage i中Encoder层数；[3, 4, 6, 3]
$R_i$ ：stage i中SRA的缩减率；[8, 4, 2, 1]
$N_i$ ：stage i中SRA的head个数；[1, 2, 5, 8]
$E_i$ ：stage i中前馈层的扩张率；#[8, 8, 4, 4]

每次经过transformer后的图像都会缩小，每一维缩小的倍数是patchsize，第一层的图像尺寸就是原始尺寸，之后的尺寸为图中的尺寸

MLP中各层的神经元个数：第一层就是embed_dims=[64, 128, 256, 512]，第二层（隐藏层）是embed_dims=[64, 128, 256, 512]*mlp_ratios=[8, 8, 4, 4]，第三层和第一层一样。

MHA中输入有三个参数x，H,W，这是对2D图像来说的，3D图像要加一个D（深度）

每一个head的维度dhead是Ci/Ni,公式3是对k或v降低空间维度的操作，也就是减少计算量。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pvt代码的理解——为什么通过transformer后图像尺寸变了？

MLP中各层的神经元个数：第一层就是embed_dims=[64, 128, 256, 512]，第二层（隐藏层）是embed_dims=[64, 128, 256, 512]*mlp_ratios=[8, 8, 4, 4]，第三层和第一层一样。每次经过transformer后的图像都会缩小，每一维缩小的倍数是patchsize，第一层的图像尺寸就是原始尺寸，之后的尺寸为图中的尺寸。MHA中输入有三个参数x，H,W，这是对2D图像来说的，3D图像要加一个D（深度）
复制链接

扫一扫

Zou验钞 CSDN认证博客专家 CSDN认证企业博客

码龄3年

34: 原创

39万+: 周排名

25万+: 总排名

1万+: 访问

: 等级

451: 积分

20: 粉丝

19: 获赞

10: 评论

31: 收藏

私信

关注

热门文章

最新评论

Vit-V-Net pytorch 代码理解与分析
btthe: 作者您好请问您训练这个网络时使用的什么数据集呀？能不能和您交流一下我训练完但是好像出了问题效果不好
3DSlicer安装及学习
weixin_45494837: 您好，，我想请教您一个关于3dslicer的问题，就是我有个文件夹里有250个光声成像的b扫，我想导入三维重建，但是发现导入png文件夹只显示第一张，于是我把png格式转成了dicom格式，文件夹是可以直接拖拽导入了，但是还是只能显示一张，请教下您这怎么解决啊
Vit-V-Net pytorch 代码理解与分析
新时代程序员凌霄: 作者你好，我注意到你插入了一张有关于vit-v-net的前向传播的PPT中的图片，可以分享一下这份PPT吗
SimpleITK 图像预处理——resize改变图像的尺寸
L闰土: 划重点，mask采用”最近邻插值“，我在resize mask图像的时候没有注意这个问题，发现resize之后标签（实例分割，多标签）会出现错乱情况。终于解决问题了！
3DSlicer安装及学习
Zou验钞: 这个链接可能失效了，这个链接以前很方便，也不是我的。但是安装的博客还是很多的，安装的步骤看别的就好了，抱歉，我主要还是分享一下简单的渲染步骤

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。