引言
a) 物体由一系列几何组织部件所组成。本文引入了一个无监督的胶囊自动编码器(SCAE),意在使用部件之间的几何关系去推理对象;
b) 由于部件间的关系,不依赖于视角的变动,所以该模型对视点的变化是健壮的;
c) SCAE包括两个阶段:
第一阶段,该模型直接从图像中预测部件的存在和姿态,并试图通过适当的排列来部件来重建图像。
第二阶段,OCAE预测了几个对象胶囊的参数,然后利用这些参数重建局部的姿态。
d) 与以往的胶囊网络不同,该模型中的推理是摊销的,并由现成的神经编码器执行。其无监督最近分类结果为 SVHN(55%)和MNIST(98.7%);
介绍
1、卷积神经网络之所以相比没有权重共享的网络性能好,其原因在于:如果图像中一个局部特征是有用的,那么这个局部特征在图像的其他地方也同样有效。为此改变视点,复制不同位置上的特征,来探索性能,很是诱人。不过,这很快也带来了繁琐的高维特征图。
2、跨非平移自由度复制特征(replicating features across the non-translational degrees of freedom)的一种替代方法是显式学习整个对象的自然坐标框架与其每个部分的自然坐标框架之间的转换。计算机图形学依靠这样的对象→零件坐标变换来以视点不变的方式表示对象的几何形状。而且,有充分的证据表明,与标准的CNN不同,人类的视觉还依赖于坐标系:在熟悉的物体上施加不熟悉的坐标系会给物体或物体的几何形状的识别带来挑战
3、神经系统可以推理学习物体、部件和观察者之间的转换,但每种转换可能需要不同的方式表示。对象关系(OP)是视点不变的,可以轻松地通过学习的权重进行编码。对象(或部分)相对观察者视点的改变而相对改变,这通过神经网络激活也可以轻松表示。
4、通过这种表示,单个对象的姿态可以通过其与观察者的关系来表示。因此与CNN不同的在于,表示单个对象,并不需要跨空间复制神经激活了。而只是并行处理两个(或以上)相同类型对象的不同实例,这需要两个或(以上)模型参数和神经激活值。
5、SCAE=PCAE+OCAE
PCAE(部分胶囊自编码器):
将图像分割成组成部分与姿态,并通过适当安排反射转换的部分模板重建图像。
OCAE(对象胶囊自动编码器) :
尝试将发现了的部件和他们的姿势组织成一个更小的对象集。然后,这些物体尝试利用每个部件的预测进行单独的混合,来重建部件的姿势。
每个对象胶囊通过将其姿势(对象-查看者关系(OV))乘以相关的对象-部件关系(OP),为每种混合物贡献成分。
方法
Stacked capsule Autoencoders(SCAE)
将图像分割成多个部分并不容易,因此首先将像素和部分发现阶段抽象化,然后开发集群胶囊自动编码器(CCAE) 。它使用二位点作为工具,并将其坐标视为系统的输入。 CCAE学习将点集建模为熟悉的集群排列,每个簇都通过独立的相似变换进行了变换。CCAE学会了将各个点分配给他们各自的簇,而无需事先知道簇的数量或形状。紧接着开发了部件胶囊自动编码器(PCAE),该编码器学习从图像中推断部件及其姿势。 最后,在PCAE上堆叠与CCAE非常相似的对象胶囊自动编码器(OCAE),以形成堆叠式胶囊自动编码器(SCAE)
Constellation Autoencoder (CCAE) – 群簇自编码器
定义如下:
首先定义二维输入集合:
,其中每个点属于下图中的每个簇,然后用Set Transformer 对所有的输入点进行编码,划分为类目标胶囊(即将输入点编码成部分胶囊)。其中Set Transformer是一种注意力机制的排列不变编码器 hcaps。
Part Capsule Autoencoder (PCAE)-部分胶囊自编码器
将图像解释为零件的几何排列需要1)发现图像中存在哪些零件,以及2)推断部件与观察者的关系(他们的姿势)。对于CCAE,零件只是2D点(即(x,y)坐标),但是对于PCAE,每个零件胶囊具有六维姿态Xm
(两次旋转,两次平移,缩放和剪切),存在变量dm∈[0,1]和唯一身份。我们将部件发现问题归结为自动编码:编码器学会推断不同零件囊的姿势和存在,而解码器学习类似于Tieleman,2014的每个零件的图像模板
(图4) Eslami等人,2016。如果存在某个零件(根据其存在变量),则将相应的模板与推断的姿态给出进行仿射变换。最后,将转换后的模板排列到图像中。PCAE之后是对象封装自动编码器(OCAE),该对象编码器非常类似于CCAE,在2.3节中进行了介绍。
Object Capsule Autoencoder(OCAE) 目标胶囊自编码器
Achieving Sparse and Diverse Capsule Presences
总结
我们的工作的主要贡献是一种新的表示学习方法,其中使用高度结构化的解码器网络来训练一个编码器网络,它可以将图像分割成部分和它们的姿态,另一个编码器网络可以将部分组成连贯的整体。尽管我们的训练目标与分类或聚类无关,但SCAE是在无监督对象分类中不依赖互信息(MI)而获得竞争结果的唯一方法。这一点很重要,因为与我们的方法不同,基于mi的方法需要复杂的数据扩充。利用基于mi的损失训练SCAE可能会进一步改善结果,其中胶囊概率向量可以在IIC中扮演离散概率向量的角色(Ji et al.2018)。SCAE在CIFAR10上表现不佳,这可能是因为使用了固定模板,而固定模板的表达能力不足以对实际数据建模。这可以通过构建更深层的胶囊自动编码器来解决。在计算机图形学中,复杂的场景被建模为仿射变换的几何原语的深树),以及使用依赖输入的形状函数而不是固定模板——这两者都是未来工作的有希望的方向。也可以通过在生成模型中使用可微分的呈现器(从原始胶囊中重建像素)来制作更好的PCAE来学习原始胶囊。最后,SCAE可以是混合模型的“图形”组件,它还包括一个通用的“地面”组件,可以用来解释除图形之外的所有东西。一个复杂的图像,然后可以分析使用顺序注意,以感知一个数字在一个时间。