![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
经典网络框架
文章平均质量分 83
写进メ诗的结尾。
这个作者很懒,什么都没留下…
展开
-
ResNet-18
由于第 2、3、4 个 layer 的第 1 个 block 会进行下采样,因此这些 block 的输入在进行残差连接时,会进行一次步长为 2 的 1*1 卷积,以保证进行残差连接的 block 输入在通道数和特征图大小方面都与输出一致。第 1 个 layer 没有下采样,其他 3 个 layer 中的第 1 个 block 的第 1 个卷积层会进行一次下采样(即 stride=2);此外,模型的第一个卷积层会进行一次下采样,并有一个最大池化层也会进行一次下采样;原创 2024-06-05 16:06:05 · 329 阅读 · 0 评论 -
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows(ICCV2021)
本文提出了一种新的Vision Transformer,称为Swin Transformer,可以作为计算机视觉领域的通用主干。将Transformer从NLP应用到CV会面临一些挑战,这些挑战主要来自两个方面:一个是尺度问题,视觉领域中的目标往往尺度差异很大(比如一张街景图像,里面的行人和汽车有大有小),而NLP中的Transformer并不需要考虑这个问题;另一个是图像分辨率高的问题,需要对其进行预处理缩小序列长度。原创 2023-04-03 21:34:42 · 242 阅读 · 1 评论 -
An Image is Worth 16×16 Words:Transformers for Image Recognition at Scale(ViT,ICLR2021)
虽然Transformer架构已经成为自然语言处理任务的标准,但它在计算机视觉方面的应用仍然有限。在视觉领域,注意力机制要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,但其整体结构并没有改变。本文表明,这种对CNN的依赖是不必要的,直接应用于图像块序列的纯Transformer架构可以很好地执行图像分类任务。原创 2023-04-01 20:39:34 · 186 阅读 · 0 评论 -
Attention Is All You Need(Transformer,NIPS2017)
当前主流的序列转录模型,主要依赖较为复杂的循环或卷积神经网络,此类神经网络一般包括编码器(Encoder)和解码器(Decoder)结构。在性能最好的模型之中,也会在编码器和解码器之间使用注意力机制。本文提出了一种新的简单的架构(Transformer),该架构完全基于注意力机制,而不涉及循环或卷积神经网络。在两个机器翻译任务上的实验表明,Transformer具有更佳的性能,更好的并行度,更少的训练时间。模型在WMT2014英译德翻译任务上获得了28.4%的BLEU成绩,比现有的最好成绩高2%以上。原创 2023-03-22 18:42:37 · 305 阅读 · 0 评论