《Manifold Learning in Quotient Spaces》阅读笔记

1 文章概述

来自CVPR2018
本文是使用商空间思想对自动编码器 ( A u t o E n c o d e r , A E s ) (AutoEncoder, AEs) (AutoEncoder,AEs)模型进行改进的一篇文章,其想法是由于CNN网络对变换不具有不变性,导致 A E s AEs AEs模型对于同一个形状图像不同变换的结果会产生不同的重构结果,也就是模型除了需要学习形状重构,还需要额外学习变换重构,导致重构质量下降,如果使用数据增强可以有效地提升模型对不同变换的重构能力,但是会显著降低重构图像质量,所以本文考虑使用商空间思维,将数据变换(如旋转)的群 G \mathcal{G} G视为数据空间中的一个向量子空间,从而构造出变换无关的多个等价类(比如每个等价类代表具有相同形状的不同变换图像的集合),从而使 A E s AEs AEs学习到与变换无关的数据表征,提升对形状的重构能力,同时还可以实现变换的协同对齐(对于随机变换,不同形状可以重构出同一个变换下的图像,如下图所示)。

2 商空间自动编码器

2.1 传统 A E s AEs AEs模型的不足

如前文简述所言,本文思想在于在数据空间 X X X关于变换子空间 G \mathcal{G} G的商空间 X / G X / \mathcal{G} X/G上训练自动编码器,从而学习到变换不变的对齐重构自动编码器,称为商自动编码器 ( Q u o t i e n t A u t o E n c o d e r , Q A E ) (QuotientAutoEncoder, QAE) (QuotientAutoEncoder,QAE),由于本文主要考虑的是刚性变换中的“旋转”,下面将使用旋转作为变换的指代。

考虑数据集 D = { x i ∈ X ∣ i ∈ [ 1 , n ] } {D= \{ {x}_i \in X | i \in [1,n] \} } D={xiXi[1,n]} 为有 n n n个形状类别的 m m m维向量集合, X X X代表二维或三维图像的特征空间,若令 f w : R m → R p f_w: \mathbb{R}^m → \mathbb{R}^p fw:RmRp表示编码器映射, g w ′ : R p → R m g_{w'}: \mathbb{R}^p → \mathbb{R}^m gw:RpRm表示解码器映射,则传统 A E s AEs AEs模型 g w ′ ∘ f w g_{w'} \circ f_w gwfw的重构误差为:

通常使用 L 2 L^2 L2loss ∣ ∣ x − y ∣ ∣ 2 2 {||x-y||}_2^2 xy22为重构损失。

传统的 A E s AEs AEs存在的问题是,由于不具有旋转不变性,假如数据中只包含了少量的旋转模式,训练好的模型无法很好地重构某个shape在不同旋转模式下的图像,为了解决这一问题,有两种思路,一是将图像进行协同对齐,二是进行数据增强,获得不同角度的样本数据,而目前的对齐算法仍然不完备,错误率较高,数据增强又会导致网络建模能力下降,本文因此引入了商损失,将问题推广到商空间角度进行分析。

2.2 Q A E QAE QAE模型建模

本文的目的在于构建一个旋转不变的 A E s AEs AEs重构模型,以旋转为例,考虑一个旋转群 G \mathcal{G} G h ∈ G h \in \mathcal{G} hG x ∈ X x \in X xX分别表示旋转群上的一个旋转操作和数据样本, ( h , x ) ↦ h . x (h,x) \mapsto h.x (h,x)h.x则表示将 x x x应用 h h h旋转操作。根据商空间思想,对于旋转子空间来说,同一个shape i i i 的样本 x i x_i xi减去 h . x i h.x_i h.xi操作后,必然位于旋转子空间上,表示了一个旋转信息 h h h,因此,我们可以把满足商映射的所有样本视为一个等价类,这个等价类中的所有样本具有除了旋转信息外均相同的其他信息,本文将这个等价类集合记为 x ˉ = { h . x ∣ h ∈ G } \bar{x}=\{ h.x | h \in \mathcal{G} \} xˉ={h.xhG}。对于 D D D中所有样本都进行商映射,最终得到商数据集表示: D ˉ = { x i ˉ ∈ X ∣ i ∈ [ 1 , n ] } \bar{D} = \{ \bar{x_i} \in X | i \in [1,n] \} Dˉ={xiˉXi[1,n]}

本文所提出的商自动编码器网络结构如下:

观察上面的结构图,编码过程由轨道池化(数据增强)、共享编码、轨道池化三部分组成,解码过程是传统的解码操作,重构损失使用的是改进商重构损失,下面分解每一步的操作:

  1. 记住我们构造商空间的目的,是为了学习旋转不变性表示,在实现这一目的时,本文用了一个非常取巧的操作,对于某一个随机形状和旋转角度的样本 x i x_i xi先使用轨道采样(等价于数据增强)获得该样本不同旋转角度的轨道样本,构成一个满足本文关于旋转商映射的等价类 x i ˉ \bar{x_i} xiˉ

  2. 在同一个编码器参数下编码 x i ˉ \bar{x_i} xiˉ中的所有样本,得到若干个编码向量;

  3. 对编码向量进行轨道池化操作,获得融合编码向量。具体来说,就是比较这若干个编码向量的每个维度的数值,取每一维的最大值作为融合编码向量在该维的值(注意,轨道池化操作在后续实验中证明对模型表现有重要作用);

  4. 解码,获得重构表示;

  5. 计算重构表示与 x i ˉ \bar{x_i} xiˉ中所有样本的重构损失,取下界作为该等价类的最终重构损失:

这样一来,具有同样形状的图像不管其旋转方向如何,对于 Q A E QAE QAE模型都有相同的贡献,重构误差为:

以上,就是 Q A E QAE QAE模型的全部结构。

对于离散数据(旋转群 G \mathcal{G} G中只有有限个离散旋转信息,相当于是完整旋转群的一个子群),上述下界可以直接使用最小值表示,很容易进行反向传播操作进行训练,重构损失可改写为:

对于连续数据,则较为困难,此处本文使用了群论中的李群假设,并使用高斯-牛顿法进行迭代求解,理论较为复杂,不过多介绍。

2.3 半监督学习与协同对齐

本文的一大亮点是 Q A E QAE QAE模型可以自动进行协同对齐操作,但是没有明确说明能够实现协同操作的原因,同时指出协同对齐的方向不可控,个人猜测原因在于,本文采样了样本多个旋转角度的图像信息,在进行编码时,某一个或多个维度可能表示潜在旋转编码信息,在进行轨道池化时,占据优势(值较大)的角度编码得以保留,最终在不同图像上实现了协同对齐。

本文同时指出,如果拥有少量的协同对齐数据,可以使用这部分数据对模型进行预训练,之后使用大量未对齐数据对模型进行微调,最终可以实现固定方向的协同对齐。

3 实验

3.1 实验设置

本文使用合成数据集进行实验,包含飞机、车、椅子三种物体的2D与3D两种数据结构,其中2D图像表示物体的深度图,大小为 64 ∗ 64 64*64 6464,3D图像是一个三维容积占用二元网格(3D volumetric occupancy binary grid),大小为 3 2 3 32^3 323。对于2D数据集,设置了36个旋转变换,对于3D数据集,设置了24种立方体不变的旋转对称变换,这些数据都没有进行对齐。

Baseline使用的是原始 A E s AEs AEs和进行数据增强的 A E s AEs AEs模型。

3.2 重构质量表现

首先作者评测了本文的重构误差,如下表所示:

最终发现 Q A E QAE QAE模型在大部分实验上都有超过20%的重构误差下降。

之后显示了其在2D Cars数据集上的实验结果:

图中第一行是原始深度图,第二行是增强 A E s AEs AEs的结果,第三行是本文 Q A E QAE QAE模型的结果,发现 Q A E QAE QAE一是实现了协同对齐,二是具有更加清楚的纹理信息。

3.3 轨道池化的作用探究

除此之外,本文探究了轨道池化对模型表现得影响:

图中虚线表示训练损失,实线表示验证损失,黑色是增强 A E s AEs AEs模型得结果,红色是使用等价类中所有36张图像进行轨道池化得 Q A E QAE QAE模型结果,绿色是使用等价类中随机16张图像进行轨道池化得结果,蓝色是不使用轨道池化得结果,最后发现如果不使用轨道池化,其表现比不过增强 A E s AEs AEs模型,而轨道池化越充分,模型训练速度越快,损失也重构损失也越小。

3.4 协同对齐评测

本文给出了在不同数据集上的协同对齐重构结果:

注意上面第一张图,第一行是输入的未对齐数据,第二行是重构结果,第三行是重构对齐方向上的原始数据,亮点在最后两列,这两列数据样本是人工合成的,其宽度都大于长度,做这个实验是为了说明 Q A E QAE QAE根据图像纹理等信息进行对齐,而不是根据长宽比等信息实现对齐。

同时本文还发现使用少量对齐样本进行半监督训练,有助于减小对齐误差:

3.5 连续非刚性变换插值实验

本文前面的分析考虑的都是离散且刚性变换的情况,没有考虑扭曲,变形等非刚性变换,而且使用的是离散数据。这一部分,作者考虑使用RBF(径向基)函数进行对输入进行非刚性变换,并使用高斯-牛顿法进行迭代,观察插值结果:

上图中第一行是增强 A E s AEs AEs的结果,第二行是 Q A E QAE QAE的实验结果,可以发现增强 A E s AEs AEs除了没有对齐,还没有很好地实现插值重构,而 Q A E QAE QAE较好地完成了任务。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值