无监督学习面临的众多挑战

首先看什么是学习(learning)?

  • 一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考的题目)?
  • 最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。
  • 在上述的分类过程中,如果所有训练数据都有标签,则为有监督学习(supervised learning)。如果数据没有标签,显然就是无监督学习(unsupervised learning)了,也即聚类(clustering)。
  • 目前分类算法的效果还是不错的,但相对来讲,聚类算法就有些惨不忍睹了。确实,无监督学习本身的特点使其难以得到如分类一样近乎完美的结果。这也正如我们在高中做题,答案(标签)是非常重要的,假设两个完全相同的人进入高中,一个正常学习,另一人做的所有题目都没有答案,那么想必第一个人高考会发挥更好,第二个人会发疯。

这时各位可能要问,既然分类如此之好,聚类如此之不靠谱,那为何我们还可以容忍聚类的存在?因为在实际应用中,标签的获取常常需要极大的人工工作量,有时甚至非常困难。例如在自然语言处理(NLP)中,Penn Chinese Treebank在2年里只完成了4000句话的标签……

无监督特征学习的当前趋势概览:回归到随机目标的流形学习,发掘因果关系以描述视觉特征,以及在强化学习中通过辅助控制任务增强目的性和通过自我模拟进行预训练。从无标注数据中可以挖掘的信息有很多,看起来我们目前的监督学习只不过是掠过了数据蛋糕的表面奶油而已。

那么在2017 年,在无监督学习领域发生了什么?
看看下面这幅著名的「Yann LeCun 的蛋糕」,你能得到更好的理解。
这里写图片描述
事实上,通过相当数量的标注样本训练机器也许对理解我们的学习机制很有帮助,但是在寻找现象的内部规律的时候;被反常现象震惊并试图寻找其中规律的时候;被好奇心牵动的时候;通过游戏训练技能的时候,这些场景都不需要有人明确地告诉你理论上哪些是好的,哪些是坏的,所以我们对非监督学习的探索是很有必要的。
那么如何在没有任何监督的情况下学习特征呢?
《Unsupervised learning by predicting the noise》这篇论文给出了一个很异乎寻常的答案——噪声。
论文的指导思想如下:每一个样本都相当于超球面上的一个向量,向量标注了数据点在其上的位置。实际上,学习的过程就相当于将图像和随机向量匹配对应,通过在深度卷积网络里训练,并通过监督学习最小化损失函数。
这里写图片描述
特别是,训练的过程在以网络的参量进行梯度下降和不同图像的伪目标重置之间交替,最终也是为了最小化损失函数。这里展示的图像特征的结果来自 ImageNet。两者都是在 ImageNet 上训练一个 AlexNet 得到的结果,左边的基于目标函数,右边使用的是其提出的无监督学习方法。
这里写图片描述
这个方法可以说代表了迁移学习算法探索的最先进技术水平,但为什么这种方法能奏效呢?一种解释是:网络学会了用新的表征空间重新表示超球面上的矩阵。这可称为一种内在的流形学习。通过打乱布置进行优化是非常关键的方法,毕竟在新的表征空间中,不恰当的匹配不能够使相似的图像位于相近的位置。
我们创造了一整套方法,只需要在训练数据中关注它们的联系,就可以将它们互相关联并得出预测结果。但实际上很多种情况下这都不奏效。如果我们可以在模型训练中加入因果关系的考虑的话又会如何呢?例如,我们可以阻止我们的卷积网络宣布图中的动物是一只狮子,因为背景表明这是一片典型的热带大草原吗?
从图像中发现因果关系[Lopez-Paz et al. CVPR17] (论文链接)
这里写图片描述
研究者们认为物体特征和非因果特征是紧密联系的,而环境特征和因果特征并不需要互相关联。环境特征提供背景,正如这一片大的草原,而物体特征则是在数据集中的边界特性,比如图中的树。在图中,它们分别指热带大草原和狮子的鬣毛。
另一方面,「因果特征是指导致图中物体如此表现的原因(就是说,那些特征决定了物体的类别标签),而非因果特征则是由图中物体的表现所导致(就是说,那些特征是由类别标签所决定)。」在我们的例子中,因果特征是热带大草原的视觉模式,非因果特征是狮子的鬣毛。


只有拥有了真实因果关系标注的数据才能训练这样的网络,而这样的数据是很稀有的。但是实际上,通过设置一对因果变量并以一个记号指示因果关系,这样的数据是很容易合成的。目前为止,还没有人这样使用过数据。
下面是两个版本的图像,无论是目标还是屏蔽目标后的图片,都被标准的深度残差网络特征化。一些目标和背景评分都被设计为特征顶端,作为表示目标/背景的信号。
这里写图片描述
现在我们可以将图像中物体和环境通过因果或者非因果关系联系起来。这样导致的结果是,举例来说,「拥有最高非因果分数的特征比起拥有最高因果分数的特征,表现出更高的物体分数。」通过实验性的证实这个猜想,结果暗示了,图像中的因果性实际上是指物体和背景之间的差异。这个结果展现了其开辟新的研究领域的潜力,理论上,当数据的分布改变的时候,一个更好的探测因果方向的算法应该能更好的提取和学习特征。参见论文:《Causal inference using invariant prediction: identification and confidence intervals》、《Causal Effect Inference with Deep Latent-Variable Models》。
这个方案就是强化学习。强化学习的主要困难就是奖励的稀疏和延迟,那么为什么不引进辅助任务以增强训练信号呢?当然是因为,伪奖励必须和真实目标关联并且在执行过程中不依赖人为的监督。
无监督辅助任务的强化学习:《Reinforcement Learning with Unsupervised Auxiliary Tasks》这篇论文给出了很直接和实在的建议:遍历所有辅助任务并增强目标函数(最大化奖励)。在总体表现的意义上,该策略会在整体表现的前提下学习。实际上,有一些模型会同时接近于主策略与其他策略,以完成额外任务;这些模型会共享它们的参数。例如,模型的最底层可以共同学习,将其视觉特征都展开。「让智能体平衡提高总体奖励的表现和提高辅助任务的表现是很有必要的」。
以下所示是论文中所探索的辅助性任务。

  1. 首先是像素控制,智能体通过独立的决策最大的改变输入图像的每一个像素点。其基本原理是「感知流中的改变通常和环境中的重要事件有关。」因此学习控制改变是很有意义的。
  2. 第二个是特征控制,智能体被训练预测价值网络的一些中间层的隐藏单元的活化值。这个想法很有趣,「因为一个智能体的决策或者价值网络能学习提取环境中任务相关的高级特征。」
  3. 第三个是奖励预测,智能体学习预测即时到来的奖励。

这三种辅助任务通过智能体过去经验缓存的不断重新体验来学习。其它细节暂且不提,这一整套方法被称作 UNREAL。在 Atari 游戏和 Labyrint的测试中,它表现出了很快的学习速度,并能做出更好的决策。
这里写图片描述
这里写图片描述
论文最后的洞见是关于像素控制的有效性,而不是简单通过重构损失函数来进行预测的。
这里写图片描述
最后一提,并不是说无监督学习就总是困难的,实际上对其行为的测量更为困难。正如 Yoshua Bengio 所说:「我们不知道什么样的表征才是好的表征。[…] 我们甚至对判定无监督学习工作好坏的合适的目标函数都没有一个明确的定义。」
实际上,几乎所有的关于无监督学习都在间接使用监督学习或者强化学习去测量其中的特征是否有意义。在无监督学习还处在提高训练质量和加快训练速度以训练预测模型的阶段的时候,这么做是合理的。但是,在经过一个视频和文本必须使用不可见的数据部分进行一般表征之后,一切都不同了。这和迁移学习的鲁棒性特征的想法如出一辙。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值