编者注: 更多人工智能业务方面重要的发展请关注2018年4月10-13日人工智能北京大会。
胶囊网络(CapsNet)是一种新的热门的神经网络架构。它可能对深度学习带来深远的影响,特别是对计算机视觉领域。等一下!计算机视觉不是差不多已经被解决了吗?我们不是已经看到了多种卷积神经网络(CNN)的神奇案例?它们不是已经在计算机视觉任务(例如分类、定位、物体检测、语义分割或实例分割,见图1)上实现超越人类的水平了吗?
图1 一些主要的计算机视觉任务。当前,每种任务都需要一个不一样的CNN架构。比如分类里的ResNet,物体检测里的YOLO,实例分割里的Mask R-CNN等。图片由Aurélien Géron提供
恩,是的。我们已经见到了很多神奇的CNN,但是,
它们需要非常多的图片进行训练(或重复使用了已用海量数据训练过的神经网络的一部分)。 而CapsNet使用少得多的训练数据就能泛化。
CNN们并不能很好地应对模糊性,但CapsNet可以。所以它能在非常拥挤的场景里也表现得很好(尽管它目前还需要解决背景图的问题)。
CNN会在池化层理丢失大量的信息,从而降低了空间分辨率(见图2),这就导致对于输入的微小变