论文阅读《Spatial Transformer Network》

最新推荐文章于 2024-06-11 09:30:20 发布

yj_isee

最新推荐文章于 2024-06-11 09:30:20 发布

阅读量6.1k

点赞数 4

分类专栏： Computer Vision 计算机视觉论文研读

本文链接：https://blog.csdn.net/yaoqi_isee/article/details/72784881

版权

Google DeepMind

Abstract:

作者说明了CNN对于输入的数据缺乏空间变换不变形(lack of spatially invariant ability to input data)，因此作者引入了一个spatial transformer module，不需要额外的监督，能够以data-driven的方式学习得到输入图像的空间变换参数，赋予网络spatial invariant能力。

Introduction:

普通的神经网络通过max-pooling实现了一定程度上的translation invariance，但是这种不变形是通过网络的max-pooling层的堆叠实现的，对于网络内部的feature map来说，输入的图像如果进行了大范围的（平移）变换，feature map还是无法做到invariance（因为每一个max-pooling就只是2x2大小的模块，只能保证在2x2大小范围内的微小的变换，输出是不变的，通过堆叠这些2x2的池化单元，才能实现对大尺度平移变换的不变性）。

这篇文章中，作者提出了一个spatial transformer module（记为ST模块），这个模块对于任意输入的图像或者feature map，产生一个对应的spatial transform的参数，然后根据这个参数将原来的图像或者feature map做一个全局（而非局部）的空间变换，得到最终的canonical pose（也就是正正方方的图，比如原来物体是斜的，通过ST模块之后变成正的了）。

Spatial Transformer:
ST模块可以分成三个部分：localization network根据输入的feature map回归spatial transform的参数 $\theta$ ，然后用这个参数去生成一个采样的grid，最后根据这个grid以及输入的feature map得到输出的经过空间变换的feature map，如下图所示
STN

Localization network
localization的网络输入一张feature map $U \in R^{H \times W \times C}$ ，输出 θ

最低0.47元/天解锁文章

yj_isee

关注

4
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
论文阅读《Spatial Transformer Network》

Google DeepMindAbstract:作者说明了CNN对于输入的数据缺乏空间变换不变形(lack of spatially invariant ability to input data)，因此作者引入了一个spatial transformer module，不需要额外的监督，能够以data-driven的方式学习得到输入图像的空间变换参数，赋予网络spatial invariant能力
复制链接

扫一扫

专栏目录