论文阅读《Spatial Transformer Networks》

本文详细介绍了空间变换网络(Spatial Transformer Networks, STN),它是一种可插入到CNN中的模块,无需额外训练就能学习平移、缩放、旋转等变换的不变性。STN在图像分类、共定位和空间注意力等应用中有重要作用。文中还概述了STN的工作流程,包括通过LocatNet获取仿射变换参数theta,然后通过双线性插值生成目标输出的步骤。" 9300609,711610,飞思卡尔DZ60单片机SCI查询接收技术解析,"['嵌入式硬件', '微处理器架构', '通信接口', '单片机开发']
摘要由CSDN通过智能技术生成
Reference
what is STN ?
  • module inserted to CNN without any extra training feature maps
  • learn invariance to translation, scale, rotation, and more generic warping
Application
  • image classification
  • co-localisation
  • spatial attention
Pipeline
  • Forward
    pipeline
    1. 通过locatnet,提取输入图像的theta(将用于仿射变换);
    2. 根据输入图像的width和height以及仿射变换(或者TPS)的参数theta,可以生成目标位置在输入图像(U)中对应的位置(与输入图像位置一直的目标索引);
      (由torch.bmm, Batch matrix matrix product of matrices生成)。
    3. 根据目标在输入图像中的对应位置(索引矩阵)利用双线性插值得到目标输出。
  • backward
Examples

这里写图片描述
这里写图片描述

视觉Transformer是一种基于Transformer架构的深度学习模型,用于处理计算机视觉任务。它的发展脉络可以追溯到自然语言处理领域中的Transformer模型。 2017年,Google的研究人员提出了Transformer模型,用于机器翻译任务。这个模型使用了自注意力机制,能够在没有序列顺序限制的情况下有效地建模长距离依赖关系,取得了很好的翻译效果。 在2018年,Ashish Vaswani等人进一步提出了"Attention is All You Need"论文,详细介绍了Transformer模型的结构和训练方法。这个论文引起了广泛关注,并成为了自然语言处理领域的重要里程碑。 在2019年,Vision Transformer (ViT)模型被提出,将Transformer模型应用于计算机视觉任务。ViT通过将图像切分为一系列小的图像块(patches),并将这些图像块转化为序列输入,然后使用Transformer模型进行处理,实现了图像分类任务。 随后,为了更好地处理图像中的空间结构信息,研究人员提出了一系列改进的视觉Transformer模型。例如,Spatial Transformer Networks (STN)模型引入了一个空间变换网络,用于学习图像的几何变换;Vision Permutator模型则通过引入可学习的排列操作,改进了图像块的排列方式。 此外,还有一些针对特定任务的视觉Transformer模型被提出,如图像分割、目标检测和图像生成等。这些模型通过在Transformer架构中引入特定的模块和损失函数,实现了不同的计算机视觉任务。 总之,视觉Transformer的发展脉络可以追溯到Transformer模型的提出和应用于自然语言处理领域,然后经过一系列改进和扩展,被成功应用于计算机视觉任务中。这些模型在图像分类、目标检测、图像分割等任务上取得了显著的性能提升,成为了计算机视觉领域的重要研究方向之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值