Introduction
这篇文章提出了ParseNet,一个端到端的用于语义分割的卷及神经网络,这篇文章最大的贡献在于使用了全局语义信息(Global Context)来做分割,ParseNet可以直接对网络中任意一层进行全局池化得到一个代表全图特征的特征图,并利用这个特征图进行分割。
可是为什么加入了全局信息就会改善分割的结果呢?
对于CNN来说,由于池化层的存在,卷积核的感受野(Receptive Field)可以迅速地扩大,对于最顶层的神经元,其感受野通常能够覆盖整个图片。例如对于VGG的fc7层,其理论上的感受野有404*404大小,而输入的图像也不过224*224,似乎底层的神经元是完全有能力去感知到整个图像的全部信息。但事实却并不是这样的。文章通过实验证明了神经网络实际的感受野要远小于其理论上的感受野,并不足以捕捉到全局语义信息。
如上图所示,(a)是原图,(b)是某个神经元输出的Activation map,文章对原图上滑动一个窗口,对这个窗口内部的图像加入随机噪声并观察加噪声后该神经元的输出是否有较大的变化,当产生较大变化时,代表这个神经元可以感受到这部分图像,并由此得到实际的感受野,如图(d)所示