1.简介
论文地址:https://arxiv.org/pdf/2111.09883.pdf
作者提出了将Swin Transformer缩放到30亿个参数的技术 ,并使其能够使用高达1536×1536分辨率的图像进行训练。在很多方面达到了SOTA。
目前,视觉模型尚未像NLP语言模型那样被广泛探索,部分原因是训练和应用中的以下差异:
(1)视觉模型通常在规模上面临不稳定性问题;
(2)许多下游视觉任务需要高分辨率图像,如何有效地将低分辨率预训练的模型转换为高分辨率模型尚未被有效探索,也就是跨窗口分辨率迁移模型时性能下降。
(3)当图像分辨率较高时,GPU显存消耗也是一个问题。
解决思路:
为了解决这些问题,作者提出了几种技术,并在本文中以Swin Transformer进行了说明:
(1)提高大
本文介绍了如何将Swin Transformer整合到YOLOv5中,以提升模型性能。作者通过后归一化技术和缩放余弦注意力提高了大模型稳定性,采用对数间隔连续位置偏差技术有效地进行跨分辨率迁移。Swin Transformer的层级结构适应于密集检测任务,代码已做修改以适配YOLOv5模块,并提供了详细的配置和使用指导。
订阅专栏 解锁全文
425

被折叠的 条评论
为什么被折叠?



