理解训练深层前馈神经网络的难度(Undetanding the difficulty of training deep feedforward neural networks )...

译者按:大神bengio 的经典论文之一,不多说 作者:Xavier Glorot Yoshua Bengio 加拿大魁北克 蒙特利尔大学 摘要:在2006年以前,似乎深度多层的神经网络没有被成功训练过。自那以后少数几种算法显示成功地训练了它们,实验结果表明了深度多层的架构的优越性。所有这...
摘要由CSDN通过智能技术生成

译者按:大神bengio 的经典论文之一,不多说

作者:Xavier Glorot Yoshua Bengio     加拿大魁北克  蒙特利尔大学

 

摘要:在2006年以前,似乎深度多层的神经网络没有被成功训练过。自那以后少数几种算法显示成功地训练了它们,实验结果表明了深度多层的架构的优越性。所有这些实验结果都是通过新的初始化或训练机制获得的。我们的目标是更好地理解为什么随机初始化的标准梯度下降法在深度神经网络下表现如此糟糕,为了更好地理解最近的相对成功并帮助设计未来更好的算法。我们首先观察了非线性激活函数的影响。我们发现logistic sigmoid激活不适用于随机初始化的深度网络,因为它的平均值,特别是顶部隐藏层进入饱和状态。令人惊讶的是,我们发现饱和单位可以移出自我饱和,尽管低,并且在训练神经网络时解释有时会出现高原。我们发现饱和度较低的新非线性通常是有益的。最后,我们研究层和训练过程中激活和梯度如何变化,当训练可能更加困难时,与每层相关联的雅可比矩阵的奇异值远不等于1。基于这些考虑,我们提出了一种新的初始化方案,其带来显着更快的收敛。

 

1  深度神经网络

深度学习方法的目标是通过低层次特征的组合形成更高层次的特征层次结构。它们包括用于各种深层架构的学习方法,包括具有许多隐藏层的神经网络(Vincentet al。,2008)和具有多层隐变量的图形模型(Hinton等,2006)等(Zhuet al。, 2009; Weston等,2008)。由于它们的理论吸引力,来自生物学和人类认知的灵感以及由于视觉的经验成功(Ranzato等人,2007; Larochelle等人,2007),因此他们最近注意到了它们(参见(Bengio,2009) 2007; Vincent等,2008)和自然语言处理(NLP)(Collobert&Weston,2008; Mnih&Hinton,2009) 的联系。Bengio(2009)回顾和讨论的理论结果表明,为了学习能够代表高级抽象的复杂功能(例如,在视觉,语言和其他AI级任务中),可能需要深层架构。最近的深层结构实验结果是通过模型得到的,这些模型可以转化为中间监督神经网络,但初始化方法不同于经典的前向神经网络(Rumelhart et al。,1986)。为什么这些新算法比标准随机初始化和基于梯度的无监督训练准则优化工作得更好?部分答案可能在最近对无监督预训练效果的分析中发现(Erhan等人,2009),表明它起着规范化的作用,在优化过程的“更好”盆地中初始化参数,对应于明显的局部但与早期的工作(Bengio等人,2007)相比,即使是纯粹的监督但贪婪的分层过程也会带来更好的结果。因此,在这里,我们不是专注于无监督的预培训或半监督标准给深层架构带来什么,而是专注于分析好的旧(但深度)多层神经网络可能出现的问题。我们的分析是由调查实验驱动到monitrogen激活(注意饱和我们还评估了这些激活函数选择(以及它可能影响饱和度的思想)和初始化过程(由于无监督预训练是一种特殊形式的初始化,并且它具有隐含单位) adrastic影响)。

2实验设置和数据集

生成本节介绍的新数据集的代码可从以下网址获得

http://www.iro.umontreal.ca/˜lisa/twiki/bin/view.cgi/Public/DeepGradientsAISTATS2010

2.1无限数据集的在线学习:

Shapeset-3×2

最近在深入架构下的工作(见Bengio(2009)图7)显示,即使在非常大的训练集或在线学习中,从无监督预训练初始化产生了实质性的改进,随着训练样例数量的增加,这种改进不会消失。在线设置也很有趣,因为它专注于优化问题而不是小样本正则化效果,所以我们决定在我们的实验中包含一个由Larochelle等人启发的合成图像数据集。 (2007)和Larochelle等人(2009年),从中可以抽取所需的许多实例,用于测试在线学习情景。

 

 
11332520-3b7aa46645c64e02.png
图1:顶部:64×64分辨率的Shapeset-3×2图像。 我们使用的例子是32×32分辨率。 学习者试图预测哪些对象(平行四边形,三角形或椭圆形)存在,并且可以存在1或2个对象,从而产生9种可能的分类。 底部:全分辨率的Small-ImageNet图像。

我们将这个数据集称为Shapeset-3×2数据集,图1中的示例图像(顶部)。 Shapeset-3×2包含1或2个二维物体的图像,每个物体取自3个形状类别(三角形,平行四边形,椭圆形),并放置有随机形状参数(相对长度和/或角度),缩放,旋转,平移和灰度。

我们注意到,图像中只有一个形状,识别它的任务太简单了。因此,我们决定对两个物体的图像进行取样,限制第二个物体与第一个物体不超过其面积的百分之五十,以避免完全隐藏它。

任务是预测存在的物体(例如三角形+椭圆,平行四边形+平行四边形,单独三角形等),而不必区分前景形状和背景形状。这因此定义了九个配置类。

该任务相当困难,因为我们需要发现旋转,平移,缩放,对象颜色,遮挡和形状的相对位置等方面的不变性。同时,我们需要提取预测哪些物体形状存在的可变性因素。

图像的大小是任意的,但我们将其固定为32×32,以便有效地处理高密度网络。

2.2有限数据集

MNIST数字(LeCun等人,1998a)数据集有50,000个训练图像,10,000个验证图像(用于超参数选择)和10,000个测试图像,每个图像显示10个像素之一的28×28灰度像素图像数字。 CIFAR-10(Krizhevsky&Hinton,2009)是微型图像数据集的标记子集,其中包含50,000个训练样例(我们从中提取10,000个作为验证数据)和10,000个测试样例。每个图像中对应于主要对象的有10个类别:飞机,汽车,鸟,猫,鹿,狗,青蛙,马,船或卡车。这些课程是平衡的。每个图像都是彩色的,但尺寸仅为32×32像素,因此输入是32×32×3 = 3072个实际值的向量。 Small-ImageNet,它是一套微小的37×37灰度级图像数据集,由http://www.image-net.org上的高分辨率和更大集合计算得出,带有来自WordNet名词层次结构的标签。我们已经使用了90,000个示例进行培训,10,000个用于验证组,10,000个用于测试。有10个平衡类:爬行动物,车辆,鸟类,哺乳动物,鱼类,家具,仪器,工具,鲜花和水果图1(底部)显示随机选择的例子。

2.3实验设置

我们优化了具有一至五层隐藏层的前馈神经网络,每层有一千个隐藏单元,并对输出层进行了softmax逻辑回归。成本函数是负对数似然-log P(y | x),其中(x,y)是(输入图像,目标类)对。神经网络在10个小批量的随机反向传播上进行了优化,即

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值