摘要:
指出胶囊网络的优势,即可以编码图片中特征的空间关系,这将很大程度上改善目前在图像分类的缺点(特征不变性)。但是原始的胶囊网络,不太适合内部特征比较丰富的图像。所以作者提出了一种MS-Capsules,这种网络可以增加网络的效率和鲁棒性。MS-Capsules有两个阶段:第一个阶段是多尺度特征提取低级特征和高级特征,第二个阶段是用多维主胶囊层来编码特征金字塔。当然,如果作者只做这些任务怎么可能发sci呢,所以作者还提出了一种用于胶囊网络的dropout。
1 介绍:
指出现在CNN采用的路由机制是pooling,进而说pooling的一些缺点:特征不变性以及会丢失一些物体的位置信息。所以hinton就提出了胶囊网络,然后就王婆卖瓜自卖自夸,CNN利用低层网络提取低级特征用高层网络提出高级特征。但是,由于胶囊网络为了保护空间信息,原始胶囊网络只用了一些很浅层的CNN用来提取特征,这就导致了胶囊网络缺少高级特征,因此胶囊网络在复杂图片中往往表现很差,同时hinton在胶囊网络中增大卷积核的尺寸,他这是为了提高感受野,想让网络获取更多的特征,但是增大卷积核的尺寸带来的后果就是参数数量剧增,这会导致过拟合!!!!
然后作者就这些缺点引出了自己的MS-Capsules,首先,越深的网络可以提取更高级的特征,所以将尺寸较大的卷积核换成多个小尺寸的卷积核,这会降低训练参数,从而降低过拟合。然后高级语义信息被编码在高维胶囊中,低级信息被编码在低维胶囊中。第二,作者提出了适用于胶囊网络中的dropout。第三,作者用动态路由机制去融合多维胶囊信息。
2 相关工作:
继续说之前的胶囊网络不行,这样可以彰显自己的牛批。
传统的深度神经网络对于去提取物体不同结构(高级和低级特征)不是那么有效率。为了去保存空间特征信息,hinton提出了胶囊网络,胶囊即向量,用向量去表示物体部分和整体的关系,并且有很多人发表了文章证明胶囊网络的有效性,还有提出了用胶囊网络来做GAN!!以及simese capsule Networks,👍!
3 多尺度胶囊网络:
在这篇文章,作者提出了一种多尺度胶囊来编码不同特征的特征,如图1所示,MS-CapsNet网络包含两个conv和一个fc层(这里我不太懂fc层是代表主胶囊层到数字胶囊层吗!!),第一层是标准conv,第二层是多尺度胶囊编码单元,最后一层是数字胶囊层,在第二层和最后一层中存在路由机制,多分类胶囊网络的损失函数定义为:
Tj和Vj分别代表第j个标签和第j个数字胶囊的长度,m+和m-表示最大边缘和最小边缘,λ是~~~(原文表示也太不清楚),数字胶囊所有的权重是总的权重。
————————————————————————图一
多尺度胶囊编码单元:
在胶囊网络中,一个胶囊为网站中的一个神经元(也就是一个vector为一个神经元)。这个vector包含方向和长度, 胶囊的方向可以捕捉实体的属性,例如方向和位置。胶囊的长度代表实体存在的概率。第j个胶囊的输出定义为vj:
这个公式,可以将胶囊的长度压缩到0-1且方向不会改变,在cnn中不同尺度的特征可以被不同cnn所捕捉,低层捕获初级特征,高层捕获高级抽象特征,结合这个特征就可以代表这张图片所有的特征了,然后作者根据这个特性提出了从不同尺度捕获特征,将这些特征编码到主胶囊层中,继而通过转化矩阵得到预测胶囊。
如图2所示,这个单元包含两个步骤:第一个阶段是多尺度特征提取,第二个阶段是不同尺度的特征被编码到多维度主胶囊层,然后胶囊和不同权重矩阵进行计算得到预测胶囊。
————————————————————图二
Capsule Dropout
这篇作者说之前hinton提出的dropout不适合胶囊,因为dropout的处理对象是标量,而胶囊网络中处理对象是向量,只需要将原本的dropout处理对象换成向量,就成Capsule Dropout。好理解吧!!!!
动态路由机制
4 实验结果:
作者采用的数据集分别是FashionMNIST和CIFAR10,继而介绍他的系统参数,例如batch-size是128,权重衰减率是0.00001等等根据跑出的结果图,可以看到MS-CapNets比capnets更容易收敛,且更有表达力,这主要归因于多尺度的结果,所以MS-CapNet更具有鲁棒性在复杂数据集上,因为可看到高级抽象特征,根据图6可看到,提出capsule dropout更可以提取出鲁棒性更好的特征,它的reconstruct比没有capsule dropout更nice,且作者观察到标准的dropout容易不收敛。
————————————图6
作者提出的MS-CapsNet将大卷积核换成多个小卷积核,这样参数减小且得到的特征更抽象,下图为实验结果图。