【论文阅读】Swin Transformer V2: Scaling Up Capacity and Resolution

一碗白开水一

已于 2022-03-08 15:12:41 修改

阅读量4.2k

点赞数

分类专栏：论文阅读文章标签：知识点概率论 python

于 2022-03-08 15:06:28 首次发布

本文链接：https://blog.csdn.net/weixin_43859829/article/details/123353340

版权

本文介绍了Swin Transformer V2的改进，包括解决大型视觉模型训练不稳定性问题的post norm和缩放余弦注意技术，以及提高高分辨率输入处理效率的对数间隔连续位置偏差。此外，还讨论了如何通过zero optimizer、activation check pointing等方法降低GPU显存消耗。

摘要由CSDN通过智能技术生成

题目：Swin Transformer V2: Scaling Up Capacity and Resolution

motivation:作者提出了将Swin Transformer缩放到30亿个参数的技术，并使其能够使用高达1536×1536分辨率的图像进行训练。作者要做大做强。

method:
在这里插入图片描述

首先，对大型视觉模型的实验揭示了训练中的不稳定性问题。

作者发现，在大型模型中，各层之间的激活幅度差异显著增大。仔细观察结构可以发现，这是由直接添加回主分支的残差单元的输出引起的。结果是激活值逐层累积，因此深层的振幅明显大于早期层的振幅。为了解决这个问题，作者提出了一种新的归一化配置，称为post norm，它将LN层从每个残差单元的开始移动到后端.
作者发现，这种新的配置在网络层上产生了更温和的激活值。作者还提出了一种**缩放余弦注意（scaled cosine attention）**来取代以前的点积注意（dot product attention）。缩放余弦注意使得计算与块输入的振幅无关，并且注意值不太可能陷入极端。在本文的实验中，提出的两种技术不仅使训练过程更加稳定，而且提高了精度，特别是对于较大的模型。

其次，

最低0.47元/天解锁文章

一碗白开水一

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】Swin Transformer V2: Scaling Up Capacity and Resolution

题目：Swin Transformer V2: Scaling Up Capacity and Resolutionmotivation:作者提出了将Swin Transformer缩放到30亿个参数的技术，并使其能够使用高达1536×1536分辨率的图像进行训练。作者要做大做强。method:首先，对大型视觉模型的实验揭示了训练中的不稳定性问题。作者发现，在大型模型中，各层之间的激活幅度差异显著增大。仔细观察结构可以发现，这是由直接添加回主分支的残差单元的输出引起的。结果是激活值逐层累积，
复制链接

扫一扫

专栏目录