表示学习的基本原理

1. 前言

 

机器学习的性能在很大程度上取决于是否选择了适当的数据表示(或特征)。实际上,机器学习算法的大部分工作都集中在预处理管道和数据转换的设计上,这些管道和转换产生的数据表示最终决定着机器学习的有效性。

 

但是,当前机器学习算法存在致命的弱点:无法从数据中提取和构建有判别力的原始信息。特征工程作为一项重要的工作,能够利用人类的聪明才智和先验知识来弥补这一弱点,但确是人力密集型的(Labor-intensive)工作,限制了机器学习的易用性和应用范围的过大。

 

为了降低机器学习算法对特征工程的依赖,更快地构建新的应用程序,必须采取措施向人工智能时代迈进。这需要人工智能技术能够从根本上理解我们周围的世界——学会识别和理清隐藏在数据中的内在解释因子

 

表示学习,即学习数据的表示,能够使得我们更容易地提取有用的特征信息以支持分类器或预测器的构建。在概率模型中,一个好的表示通常是能够捕捉输入数据内在解释因子的后验分布。此外,一个好的表示也可能是有监督预测器的有用输入。本文着重介绍基于深度学习的表示学习——由多个非线性变换组合而成的方法。其目标是产生更抽象的且更有意义的表示。

 

 

2.核心思想

 

2006年,Hinton等人在特征学习和深度学习方面取得了突破,相关工作并在同一年继续推进。2009年,Bengio对其进行了广泛的综述和讨论。

 

表示学习的核心思想是学习特征的层次结构。即每次使用深度学习方法学习一个新的变换,并构建一个层,然后基于前面学习的变换继续学习和构建新的层,最终得到特征的层次结构本质上,无监督特征学习的每次迭代都增加深度神经网络的一层的权重。最后,可以组合这些层来初始化深度监督预测器,如神经网络分类器或深层生成模型(如Deep Boltzmann)。

 

相关工作表明,特征提取的分层叠加通常会产生更好的表示,例如,分类误差、概率模型生成的样本质量或特征学习的不变性等方面。

 

根据特征分层构建过程所采取方法的不同,表示学习主要包括贪心分层有监督预训练和贪心分层无监督预训练。通常,无监督预训练的效果要比有监督预训练的效果要好

 

 

2.1. 贪心分层有监督预训练

 

贪心的分层有监督预训练主要包括以下几种方式:

 

1)层堆叠:在训练第一个单隐藏层的MLP之后丢弃输出层,将另一个单隐藏层的MLP直接堆叠其后。尽管先前的研究结果表明,性能不如无监督的预训练,但总比没有预训练的方式要好;

 

2)额外输入:将前一层的输出作为下一层的额外输入;

 

3)迭代式:在每个迭代步骤中对所有先前添加的层进行预训练,这种判别变量比无监督的预训练效果要好。

 

2.2. 贪心分层无监督预训练

 

贪心分层无监督预训练,即每次使用无监督特征学习方法学习一个新的变换构建一个层,然后基于前面学习的变换继续学习新的层,最终得到特征的层次结构。本质上,无监督特征学习的每次迭代都增加深度神经网络的一层的权重。最后,可以组合这些层来初始化深度监督预测器,如神经网络分类器或深层生成模型(如Deep Boltzmann)。

 

在贪心分层无监督预训练后,重新生成的深层特征可以用作有监督机器学习预测器(如支持向量机)的标准输入,也可以用作深度监督神经网络的初始化(例如,通过在多层神经网络中增加逻辑回归层或纯监督层)。

 

虽然将单个层合并到一个有监督的模型中是较为容易,但是如何将无监督预训练的层组合起来构造更好的无监督模型就比较困难了。这里介绍了一些基本方法,但是尚没有出现明显的优势的方法,未来还需要很多工作来验证现有的想法。

 

无监督预训练分层特征构建方法:

 

1)将预训练的受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)叠加到一个深度信念网络(Deep Belief Network,DBN)中,其中顶层被解释为RBM,下层被解释为有向的sigmoid信念网络。然而,如何近似最大似然训练来进一步优化这一生成模型尚不清楚。一种选择是唤醒睡眠算法(wake-sleep algorithm),但还需要做更多的工作来评估该程序在改进生成模型方面的效率;

 

2)将RBM参数组合到深度玻尔兹曼机(Deep Boltzmann Machine,DBM)中,基本上是将RBM权重减半以获得DBM权重。然后,可以通过近似最大似然法对DBM进行训练。这种联合训练带来了实质性的改进,无论是在可能性方面,还是在分类性能方面,产生了深层特征学习器;

 

3)将RBM或自动编码机(Auto-encoders)堆叠到深度自动编码器中。若存在有一系列的编码-解码器对(f(·),g(·)),那么整体编码器就是单个编码器的组合:fN(…f2 (f1(·)) ),而整体解码器是它的“转置”(通常也有转置的权重矩阵):g1(g2(… gN(·)))。然后,深度自动编码器(或其正则化版本)就可以通过联合训练得到,所有参数根据全局重建误差准则进行优化;

 

4)最近提出的另一种训练深层架构的方法,是考虑迭代构造深层架构的自由能函数(Free Energy Function)。自由能函数除隐藏层单元外,没有其他显式隐变量。这种自由能函数作为与低层相关的变换组成,接入高层的隐藏层单元。

 

                                                    

首席安全官+是一个聚焦“云计算、大数据、人工智能”等高技术领域,致力网络空间安全发展与战略研究,发布网络安全创新理念、先进架构、前沿技术、产业趋势和资本动态的平台,努力打造“有特色、高水平、国际化”的网络安全思想高地。

 

                                           

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

网络空间发展与战略研究中心

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值