看到一个很不错的idea,讨论CNN与绝对位置,于是找到了一篇ICLR2020Spotlight的文章,它解释了CNN是怎么学到图片内的绝对位置信息的。
How much Position Information Do Convolutional Neural Networks Encode?
link
CNN和绝对位置,这两个概念很少被一起讨论。
有学者提出两个原因:一是,大家有一个默认的共识,CNN是平移不变的(对分类任务),或者说平移等变的(对分割和检测任务);二是,没有具体任务上的需求。比如对计算机视觉的三大物体感知任务,分类,分割和检测。物体分类跟位置没关系;语义分割作为像素级语义分类,也不依赖于位置;最有可能和绝对位置有关系的物体检测任务,被主流方法解耦了绝对位置,变成相对于锚框或者锚点进行局部相对位置的回归。这样,网络本身不需要知道物体的绝对位置,位置信息作为人为先验被用在前后处理进行坐标换算。
但是一个很显而易见的观察是,人的视觉系统是可以轻松知道绝对位置的,比如:“左上角有一只鸟,它又飞到右边了”。并且,对图像里的物体来说,本质上是通过位置和形状来区分不同实例的,这点可以参考知乎用户Xinlong Wang的回答:
如何评价SOLO: Segmenting Objects by Locations?
link
所以,