一般认为深度卷积网络对小幅度的图像变换和平移具有鲁棒性,在这篇文章中,我们会证明现有的卷积网络(VGG16, ResNet50, 和InceptionResNetV2)的输出会由于图像几个像素的平移而大幅改变,而且这种情况也会出现在其他的小规模的图像变换中。而且,网络越深,这种情况就越明显。我们还展示了这种情况出现的原因是现有的CNN忽略了传统的采样理论导致的。我们还表明,常用图像数据集的统计偏差使得CNN不太可能学会对这些转换保持不变。 综合考虑,我们的结果表明,CNNs在物体识别中的表现的泛化能力远不及人类。
现有的CNN对平移缩放和其他图像变换不具有不变性,而这种情况出现的原因,在于下采样操作以及数据中是否包含有这种偏差。