台大李宏毅老师——深度学习 课程笔记 六 (Tips for DNN Regularization)

Recipe of Deep Learning

在这里插入图片描述
在Deep learning中,我们一定是先看training data的表现好不好,然后再看在testing data上面的表现。如果在training data就不好,要先调整模型达到不错的表现。
在这里插入图片描述
所以我们不要一看到20-layer比50-layer在testing表现好,就说50-layer 过拟合了,先要去看下它们在testing data的结果。从结果可以看出,20-layer在training data已经比50-layer好了,可能的原因很多,比如50-layer的local minimum点比20的高。
在这里插入图片描述
所以不是所有的方法我们都可以随便用,比如当traning data的效果不好时,就不能用dropout。只有说training data的表现很好,但是testing data表现不好的时候,才可以用。

在这里插入图片描述# Vanishing Problem
在这里插入图片描述
在MINIST项目中,为什么层数越多,准确率越低?
在这里插入图片描述
因为激活函数用了sigmoid函数,sigmoid函数由于把很大的值都映射到了0-1的区间内,所以层数越多,对后面output的输出的影响越小,导致越往后训练,前面改变很大,后面也很难改变了,近乎于收敛。
在这里插入图片描述

ReLU

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
由于ReLU的特性,会让网络变得很瘦的线性网络,但是这依然可以解决非线形的问题,因为是多层的。(自己理解)
在这里插入图片描述

Maxout

在这里插入图片描述
Maxout Network相当于Max Pooling在神经网络中的应用。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
由于Maxout有的神经元会消失,但是每次traning data消失的不同,导致每次的激活函数长的也不一样。是一个可学习的激活函数。
在这里插入图片描述
在这里插入图片描述

Adagrad & RMSprop

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Local Minimum

在这里插入图片描述
Yan Lecun在07年说过,如果每一维都有谷底,那么1000个features就是1000个谷底,每一个谷底时p。那么就是p**1000.所以不要担心有很多local minimum,很可能你找到的就是global或者接近global。

Adam

在这里插入图片描述

Early Stopping

在这里插入图片描述
这里的testing set其实就是validation set
在这里插入图片描述

Regularization

在这里插入图片描述
我们做regularization的时候,不考虑bias,因为我们正则主要是让函数更平滑,bias一般不管平滑,而是函数上下移动。
在这里插入图片描述
L2 norm的式子,我们可以看到w会乘以一个接近于1的值,所以w不论是正还是负,都会不断的趋近于0。又由于后面减去了梯度,所以这个值会不断的接近于后面那个值。L2 正则其实在神经网络里的效果没有在SVM好,它相当于一个weight decay。
在这里插入图片描述
L1 norm就是绝对值,绝对值的求导这里用了sgn,表示如果是正数,导数就是1,如果是负数,导数就是-1.
从L1的式子可以看出,它最后总是要减去一个固定的值(蓝线部分)。而L2总是通过乘一个接近1的值去衰减。
那么如果我们有一个很大的w,比如w=1000000。这个w在L1的下降每次都是固定值,所以很慢,可能最后也还是会很大。但是在L2上面,就会下降的很快,因为是不断的累乘。所以这就是为什么L1的正则化,会让参数变得稀疏,有的w很大,有的趋近于0. 而L2正则达不到这样的效果。

Weight Decay

在这里插入图片描述

Dropout

在这里插入图片描述
每一次对于不同的mini batch,神经网络drop的neuron是不同的。
在这里插入图片描述
在这里插入图片描述
Testing的时候,使用的是全部的神经元。并且所有的w都乘1-p。
Intuitive 解释:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
原理解释:
在这里插入图片描述
Dropout像是终极的ensemble。集成学习。
在这里插入图片描述
在这里插入图片描述
每一次dropout后的神经网络都不同。但是最终testing的时候,会使用全部的神经元,这个时候w需要乘1-p
在这里插入图片描述
集成起来的y的平均值和y是近似相等的。
在这里插入图片描述
比如我们用线形的激活函数,可以看到这两种情况的y是相等的。如果不是线形激活,最后的结果是近似的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值