《Manifold Learning in Quotient Spaces》阅读笔记

最新推荐文章于 2024-05-15 16:41:36 发布

巍巍微澜

最新推荐文章于 2024-05-15 16:41:36 发布

阅读量119

点赞数

分类专栏：机器学习可解释性 Disentanglement 文章标签：计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/weixin_44846680/article/details/115551738

版权

机器学习同时被 3 个专栏收录

9 篇文章 1 订阅

订阅专栏

Disentanglement

5 篇文章 0 订阅

订阅专栏

可解释性

3 篇文章 0 订阅

订阅专栏

1 文章概述

来自CVPR2018
本文是使用商空间思想对自动编码器 $(A u t o E n c o d e r, A E s)$ 模型进行改进的一篇文章，其想法是由于CNN网络对变换不具有不变性，导致 $A E s$ 模型对于同一个形状图像不同变换的结果会产生不同的重构结果，也就是模型除了需要学习形状重构，还需要额外学习变换重构，导致重构质量下降，如果使用数据增强可以有效地提升模型对不同变换的重构能力，但是会显著降低重构图像质量，所以本文考虑使用商空间思维，将数据变换（如旋转）的群 $\mathcal{G}$ 视为数据空间中的一个向量子空间，从而构造出变换无关的多个等价类（比如每个等价类代表具有相同形状的不同变换图像的集合），从而使 $A E s$ 学习到与变换无关的数据表征，提升对形状的重构能力，同时还可以实现变换的协同对齐（对于随机变换，不同形状可以重构出同一个变换下的图像，如下图所示）。

2 商空间自动编码器

2.1 传统 $A E s$ 模型的不足

如前文简述所言，本文思想在于在数据空间 $X$ 关于变换子空间 $\mathcal{G}$ 的商空间 $\mathcal{G}$ 上训练自动编码器，从而学习到变换不变的对齐重构自动编码器，称为商自动编码器 $(Q u o t i e n t A u t o E n c o d e r, Q A E)$ ，由于本文主要考虑的是刚性变换中的“旋转”，下面将使用旋转作为变换的指代。

考虑数据集 $\{ {x}_i \in X | i \in [1,n] \} }$ 为有 $n$ 个形状类别的 $m$ 维向量集合， $X$ 代表二维或三维图像的特征空间，若令 $f_w: \mathbb{R}^m → \mathbb{R}^p$ 表示编码器映射， $g_{w'}: \mathbb{R}^p → \mathbb{R}^m$ 表示解码器映射，则传统 $A E s$ 模型 $g_{w'} \circ f_w$ 的重构误差为：

通常使用 $L^2$ loss ${||x-y||}_2^2$ 为重构损失。

传统的 $A E s$ 存在的问题是，由于不具有旋转不变性，假如数据中只包含了少量的旋转模式，训练好的模型无法很好地重构某个shape在不同旋转模式下的图像，为了解决这一问题，有两种思路，一是将图像进行协同对齐，二是进行数据增强，获得不同角度的样本数据，而目前的对齐算法仍然不完备，错误率较高，数据增强又会导致网络建模能力下降，本文因此引入了商损失，将问题推广到商空间角度进行分析。

2.2 $Q A E$ 模型建模

本文的目的在于构建一个旋转不变的 $A E s$ 重构模型，以旋转为例，考虑一个旋转群 $\mathcal{G}$ ， $\in \mathcal{G}$ ， $\in X$ 分别表示旋转群上的一个旋转操作和数据样本， $\mapsto h.x$ 则表示将 $x$ 应用 $h$ 旋转操作。根据商空间思想，对于旋转子空间来说，同一个shape $i$ 的样本 $x_i$ 减去 $h.x_i$ 操作后，必然位于旋转子空间上，表示了一个旋转信息 $h$ ，因此，我们可以把满足商映射的所有样本视为一个等价类，这个等价类中的所有样本具有除了旋转信息外均相同的其他信息，本文将这个等价类集合记为 $\bar{x}=\{ h.x | h \in \mathcal{G} \}$ 。对于 $D$ 中所有样本都进行商映射，最终得到商数据集表示： $\bar{D} = \{ \bar{x_i} \in X | i \in [1,n] \}$

本文所提出的商自动编码器网络结构如下：

观察上面的结构图，编码过程由轨道池化（数据增强）、共享编码、轨道池化三部分组成，解码过程是传统的解码操作，重构损失使用的是改进商重构损失，下面分解每一步的操作：

记住我们构造商空间的目的，是为了学习旋转不变性表示，在实现这一目的时，本文用了一个非常取巧的操作，对于某一个随机形状和旋转角度的样本 $x_i$ 先使用轨道采样（等价于数据增强）获得该样本不同旋转角度的轨道样本，构成一个满足本文关于旋转商映射的等价类 $\bar{x_i}$ 。
在同一个编码器参数下编码 $\bar{x_i}$ 中的所有样本，得到若干个编码向量；
对编码向量进行轨道池化操作，获得融合编码向量。具体来说，就是比较这若干个编码向量的每个维度的数值，取每一维的最大值作为融合编码向量在该维的值（注意，轨道池化操作在后续实验中证明对模型表现有重要作用）；
解码，获得重构表示；
计算重构表示与 $\bar{x_i}$ 中所有样本的重构损失，取下界作为该等价类的最终重构损失：

这样一来，具有同样形状的图像不管其旋转方向如何，对于 $Q A E$ 模型都有相同的贡献，重构误差为：

以上，就是 $Q A E$ 模型的全部结构。

对于离散数据（旋转群 $\mathcal{G}$ 中只有有限个离散旋转信息，相当于是完整旋转群的一个子群），上述下界可以直接使用最小值表示，很容易进行反向传播操作进行训练，重构损失可改写为：

对于连续数据，则较为困难，此处本文使用了群论中的李群假设，并使用高斯-牛顿法进行迭代求解，理论较为复杂，不过多介绍。

2.3 半监督学习与协同对齐

本文的一大亮点是 $Q A E$ 模型可以自动进行协同对齐操作，但是没有明确说明能够实现协同操作的原因，同时指出协同对齐的方向不可控，个人猜测原因在于，本文采样了样本多个旋转角度的图像信息，在进行编码时，某一个或多个维度可能表示潜在旋转编码信息，在进行轨道池化时，占据优势（值较大）的角度编码得以保留，最终在不同图像上实现了协同对齐。

本文同时指出，如果拥有少量的协同对齐数据，可以使用这部分数据对模型进行预训练，之后使用大量未对齐数据对模型进行微调，最终可以实现固定方向的协同对齐。

3 实验

3.1 实验设置

本文使用合成数据集进行实验，包含飞机、车、椅子三种物体的2D与3D两种数据结构，其中2D图像表示物体的深度图，大小为 $64 * 64$ ，3D图像是一个三维容积占用二元网格（3D volumetric occupancy binary grid），大小为 $32^3$ 。对于2D数据集，设置了36个旋转变换，对于3D数据集，设置了24种立方体不变的旋转对称变换，这些数据都没有进行对齐。

Baseline使用的是原始 $A E s$ 和进行数据增强的 $A E s$ 模型。

3.2 重构质量表现

首先作者评测了本文的重构误差，如下表所示：

最终发现 $Q A E$ 模型在大部分实验上都有超过20%的重构误差下降。

之后显示了其在2D Cars数据集上的实验结果：

图中第一行是原始深度图，第二行是增强 $A E s$ 的结果，第三行是本文 $Q A E$ 模型的结果，发现 $Q A E$ 一是实现了协同对齐，二是具有更加清楚的纹理信息。

3.3 轨道池化的作用探究

除此之外，本文探究了轨道池化对模型表现得影响：

图中虚线表示训练损失，实线表示验证损失，黑色是增强 $A E s$ 模型得结果，红色是使用等价类中所有36张图像进行轨道池化得 $Q A E$ 模型结果，绿色是使用等价类中随机16张图像进行轨道池化得结果，蓝色是不使用轨道池化得结果，最后发现如果不使用轨道池化，其表现比不过增强 $A E s$ 模型，而轨道池化越充分，模型训练速度越快，损失也重构损失也越小。

3.4 协同对齐评测

本文给出了在不同数据集上的协同对齐重构结果：

注意上面第一张图，第一行是输入的未对齐数据，第二行是重构结果，第三行是重构对齐方向上的原始数据，亮点在最后两列，这两列数据样本是人工合成的，其宽度都大于长度，做这个实验是为了说明 $Q A E$ 根据图像纹理等信息进行对齐，而不是根据长宽比等信息实现对齐。

同时本文还发现使用少量对齐样本进行半监督训练，有助于减小对齐误差：

3.5 连续非刚性变换插值实验

本文前面的分析考虑的都是离散且刚性变换的情况，没有考虑扭曲，变形等非刚性变换，而且使用的是离散数据。这一部分，作者考虑使用RBF（径向基）函数进行对输入进行非刚性变换，并使用高斯-牛顿法进行迭代，观察插值结果：

上图中第一行是增强 $A E s$ 的结果，第二行是 $Q A E$ 的实验结果，可以发现增强 $A E s$ 除了没有对齐，还没有很好地实现插值重构，而 $Q A E$ 较好地完成了任务。

巍巍微澜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Manifold Learning in Quotient Spaces》阅读笔记

1 文章概述来自CVPR2018本文是使用商空间思想对自动编码器(AutoEncoder,AEs)(AutoEncoder, AEs)(AutoEncoder,AEs)模型进行改进的一篇文章，其想法是由于CNN网络对变换不具有不变性，导致AEsAEsAEs模型对于同一个形状图像不同变换的结果会产生不同的重构结果，也就是模型除了需要学习形状重构，还需要额外学习变换重构，导致重构质量下降，如果使用数据增强可以有效地提升模型对不同变换的重构能力，但是会显著降低重构图像质量，所以本文考虑使用商空间思维，将数据变
复制链接

扫一扫