【论文阅读】AET:UnsupervisedRepresentationLearningbyAuto-Encoding TransformationsratherthanData

AETvs. AED:UnsupervisedRepresentationLearningbyAuto-Encoding Transformations rather than Data
论文链接:https://arxiv.org/abs/1901.04596

基于变换的无监督训练

一个是以“预测变换”作为自监督信号进行训练的模型,代表是Rotation Net (RotNet)[1] 和AutoEncoding Transformations (AET) [2,3]。

  • RotNet [1]通过对输入图像的旋转角度进行分类,实现对图像的特征学习
  • AET[2,3]它的思想是颠覆了传统AutoEncoder重构数据的方法(Autoencoding Data, AED),而是通过重构变换(transformation)来实现特征的学习。下面的图对比了这两种模型(AED vs. AET)。按照不同的训练loss,有进一步分成了最小化MSE的第一代v1 [2],和最小化测地线距离的 v2版本[3]
    在这里插入图片描述
    在这里插入图片描述
  • 特别的,在最新的AETv2中,利用在变换空间所构成的李群(Lie Group)中,通过利用在李群所构建的流型(manifold)上计算并最小化预测与采样的groundtruth变换直接的误差,可以进一步显著提高AET的性能。这点不能理解:对所有合法变换所构成的李群(Lie group of transformations),它对应的是一个弯曲的流型,而非一个平坦的欧式变换空间,这点如下图所示。所以利用MSE来计算变化的预测误差显然是不合理的。当然计算李群中两个变换之间的误差,并非易事。需要我们计算黎曼对数(Riemannian logarithm)。这个在一般情况下往往是不容易的。在[3]中,可以了homograhy变换下,如果利用子群投影来实现可优化的方法。具体可以参看改论文。
    在这里插入图片描述在这里插入图片描述
  • 我们近一步将其引申到用最大化特征和变换之间互信息来实现训练,并提出了 Autoenconding Variational Transformations (AVT) [4] 模型。并证明了,得到的AET/AVT特征可以实现 变换同变性 (Transformation Equivariance),这个也是Hinton 在胶囊网络中提出的希望能够学习到的一种重要特征;而AET/AVT实现了无监督训练下也能学习到这种变换同变的特征
    在这里插入图片描述
    这类基于“变换”的自编码方法,可以看作是一种无监督的数据增强,不用依赖于被增强样本的标注,这样一方面扩大了可以做增强的样本范围,另外也增大了变换适用的范围:因为在无监督数据增强下,我们不需要关心变换后的样本是否会改变样本的语义标注,进而可以探索更大范围内的变换下,图像样本各种可能的增强。

基于辨别Instance的无监督训练

除此之外,第二种达到SOTA性能就是以contrastive loss为代表的通过辨别不同instance来对实现自监督的训练。Momentum Contrast和其前身方法NCE[5]都是属于这类方法,最近提出的一些其他这里方法, 如contrastive Multiview coding。这类方法最早是收到ExamplarCNN [7]的启发,把每个样本看作是一个个独立的伪类别,用来无监督的训练网络。不同的是ExamplarCNN是直接训练一个最后一层FC来区分这些伪类,而基于contrastive loss的方法是把它看成一个retrieval by example的问题。通过辨别Instance,进而实现无监督训练,可以看成是deep clustering方法的一种极端情况。即,可以每个样本看做是一个独立的clusters。从这点上来看,deep clustering通过辨别更精细的聚类结构,结合contrastive loss,也许有更大的性能空间可以挖掘,比如 local aggregation 这个工作就是在这方面的一种有益的探索。

两类方法的异同这两类方法各有千秋,在公平的比较下(同样的网络、同样的数据集),各种都有互有胜负。不过后者,因为要辨别不同的instance,需要额外借助memory bank或者一个队列来存储过去的样本,而第一类的预测变换的方法则不需要。第一类方法也同时揭示了变换共变的性质,而且很容易扩展到半监督学习上[6],并取得了超越mean-teacher的性能,这些都使得它通过无监督数据增强在挖掘无标注数据上具有一定的优势。值得注意的是,两类方法都用到了变换来做增强。对于第一类方法而言,如上所述,直接可以看作是无监督的数据增强。对第二类方法而言,包括Momentum Contrast,在从一组数据(如memory bank或者sequence)中retrieve一个特定样本是,query和数据库中的样本都是做过某种变换了,这个可以防止出现trivial 的样本retrieval,对无监督训练起到了核心和关键的作用。

结论
这样看来,充分挖掘变换下样本特征的本质,进而实现无监督或有监督特征学习的最优化,是一个特征学习领域的一个重要方向。另外,如何把上述两类方法,在变换和instance 两个维度充分结合起来,实现两类方法的有机融合也是一个非常值得探讨的方向。

  • [1] Spyros Gidaris, Praveer Singh, Nikos Komodakis. Unsupervised Representation Learning by Predicting Image Rotations.
  • [2] Liheng Zhang, Guo-Jun Qi, Liqiang Wang, Jiebo Luo. AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data, in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2019), Long Beach, CA, June 16th - June 20th, 2019.
  • [3] Feng Lin, Haohang Xu, Houqiang Li, Hongkai Xiong, and Guo-Jun Qi. AETv2: AutoEncoding Transformations for Self-Supervised Representation Learning by Minimizing Geodesic Distances in Lie Groups.
  • [4] Guo-Jun Qi, Liheng Zhang, Chang Wen Chen, Qi Tian. AVT: Unsupervised Learning of Transformation Equivariant Representations by Autoencoding Variational Transformations, in Proceedings of International Conference in Computer Vision (ICCV 2019), Seoul, Kore, Oct. 27 – Nov. 2, 2019.
  • [5] Zhirong Wu, Yuanjun Xiong, Stella Yu, and Dahua Lin. Unsupervised Feature Learning via Non-parametric instance discrimination.
  • [6] Guo-Jun Qi, Learning Generalized Transformation Equivariant Representations via Autoencoding Transformations
  • [7] Alexey Dosovitskiy, Philipp Fischer, Jost Tobias Springenberg, Martin Riedmiller, Thomas Brox, Discriminative Unsupervised Feature Learning with Exemplar Convolutional Neural Networks

参考:作者:齐国君https://www.zhihu.com/question/355779873/answer/935156022

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值