李宏毅2020ML——tips for training DNN深度学习技巧

最新推荐文章于 2022-08-15 19:57:34 发布

小葵向前冲

最新推荐文章于 2022-08-15 19:57:34 发布

阅读量243

点赞数

分类专栏：李宏毅2020ML 文章标签：深度学习人工智能算法神经网络

本文链接：https://blog.csdn.net/weixin_44177594/article/details/114819485

版权

李宏毅2020ML 专栏收录该内容

32 篇文章 0 订阅

订阅专栏

本节综述：

本文会顺带解决CNN部分的两个问题：
1、max pooling架构中用到的max无法微分，那在gradient descent的时候该如何处理？
2、L1 的Regression到底是什么东西

本文的主要思路：针对training set和testing set上的performance分别提出针对性的解决方法
1、在training set上准确率不高：
new activation function：ReLU、Maxout
adaptive learning rate：Adagrad、RMSProp、Momentum、Adam(之前助教的有节课里讲过)
2、在testing set上准确率不高：Early Stopping、Regularization or Dropout

Recipe of Deep Learning

deep learning 三个步骤：

define the function set(network structure)
goodness of function(lossfunction – cross entropy)
pick the best function(gradient descent – optimization)

确定问题在哪里

第一件事，提高model在training set上的正确率。很多时候我们认为最后结果不好的原因是因为overfitting，但是很多时候其实是因为在testing data的正确率就不好，所以最后结果也并不怎么好。其实上，deep learning的这个方法，它才不容易overfitting，我们说的overfitting就是在training set上performance很好，但在testing set上performance没有那么好； 所以我们需要去提高training data的正确率，因而去检查一下前面有什么步骤是需要去做一下修改的。

不是所有不好都来自于overfitting

在这里插入图片描述

不同方法去解决不同问题

在这里插入图片描述

如何在Training data上得到更好的performance

这一部分主要讲述如何在Training data上得到更好的performance，分为两个模块，New activation function和Adaptive Learning Rate
在这里插入图片描述

1. New activation function

如果你今天的training结果不好，很有可能是因为你的network架构设计得不好。举例来说，可能你用的activation function是对training比较不利的，那你就尝试着换一些新的activation function，也许可以带来比较好的结果

在1980年代，比较常用的activation function是sigmoid function，如果现在我们使用sigmoid function，你会发现deeper不一定imply better，下图是在MNIST手写数字识别上的结果，当layer越来越多的时候，accuracy一开始持平，后来就掉下去了，在layer是9层、10层的时候，整个结果就崩溃了；但注意！9层、10层的情况并不能被认为是因为参数太多而导致overfitting，实际上这张图就只是training set的结果，你都不知道testing的情况，又哪来的overfitting之说呢？
在这里插入图片描述

梯度消失的问题

上面这个问题的原因不是overfitting，而是Vanishing Gradient(梯度消失)，原因是:

当你把network叠得很深的时候，在靠近input的地方，这些参数的gradient(即对最后loss function的微分)是比较小的；而在比较靠近output的地方，它对loss的微分值会是比较大的

因此当你设定同样learning rate的时候，靠近input的地方，它参数的update是很慢的；而靠近output的地方，它参数的update是比较快的

所以在靠近input的地方，参数几乎还是random的时候，output就已经根据这些random的结果找到了一个local minima，然后就converge(收敛)了

这个时候你会发现，参数的loss下降的速度变得很慢，你就会觉得gradient已经接近于0了，于是把程序停掉了，由于这个converge，是几乎base on random的参数，所以model的参数并没有被训练充分，那在training data上得到的结果肯定是很差的
在这里插入图片描述
为什么会有这个现象发生呢？如果你自己把Backpropagation的式子写出来的话，就可以很轻易地发现用sigmoid function会导致这件事情的发生；但是，我们今天不看Backpropagation的式子，其实从直觉上来想你也可以了解这件事情发生的原因
在这里插入图片描述

但其实改一下activation function可能就可以handle这个问题了

ReLU

现在比较常用的activation function叫做Rectified Linear Unit(整流线性单元函数，又称修正线性单元)，它的缩写是ReLU，该函数形状如下图所示，z为input，a为output，如果input>0则output = input，如果input<0则output = 0
在这里插入图片描述

handle Vanishing gradient problem

在这里插入图片描述

Maxout

简介：Maxout的想法是，让network自动去学习它的activation function，那Maxout network就可以自动学出ReLU，也可以学出其他的activation function，这一切都是由training data来决定的
在这里插入图片描述
Maxout是如何模仿出ReLU这个activation function的呢？

模拟更多的激活函数

How to train Maxout

在这里插入图片描述

2.Adaptive Learning Rate

这个部分主要讲述的是关于Recipe of Deep Learning中Adaptive learning rate的一些理论
这个之前前面有提及（P8-P9最优化方法）

Adagard

RMSProp

Momentum

Adam

在Testing data上得到更好的performance

在这里插入图片描述

1.Early Stopping

在这里插入图片描述

2.Regularization

在这里插入图片描述

在deep learning里面，regularization虽然有帮助，但它的重要性往往没有SVM这类方法来得高，因为我们在做neural network的时候，通常都是从一个很小的、接近于0的值开始初始参数的，而做update的时候，通常都是让参数离0越来越远，但是regularization要达到的目的，就是希望我们的参数不要离0太远

如果你做的是Early Stopping，它会减少update的次数，其实也会避免你的参数离0太远，这跟regularization做的事情是很接近的

所以在neural network里面，regularization的作用并没有SVM来的重要，SVM其实是explicitly把regularization这件事情写在了它的objective function(目标函数)里面，SVM是要去解一个convex optimization problem，因此它解的时候不一定会有iteration的过程，它不会有Early Stopping这件事，而是一步就可以走到那个最好的结果了，所以你没有办法用Early Stopping防止它离目标太远，你必须要把regularization explicitly加到你的loss function里面去

3.Dropout

在这里插入图片描述

所以如果你今天遇到的问题是在training set上得到的performance不够好，你再加dropout，就只会越做越差；这告诉我们，不同的problem需要用不同的方法去解决，而不是胡乱使用，dropout就是针对testing set的方法，当然不能够拿来解决training set上的问题啦！
在这里插入图片描述

最后：如果network很接近linear的话，dropout所得到的performance会比较好，而ReLU和Maxout的network相对来说是比较接近于linear的，所以我们通常会把含有ReLU或Maxout的network与Dropout配合起来使用

小葵向前冲

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅2020ML——tips for training DNN深度学习技巧

tips for training DNN本节综述：Recipe of Deep Learning确定问题在哪里不是所有不好都来自于overfitting不同方法去解决不同问题如何在Training data上得到更好的performance1. New activation function梯度消失的问题ReLUhandle Vanishing gradient problemMaxoutHow to train Maxout2.Adaptive Learning RateAdagardRMSPropMo
复制链接

扫一扫