0基础入门---第六章---与学习相关的技巧

文章探讨了深度学习中优化参数的方法,如SGD、Momentum、AdaGrad和Adam。它还介绍了权重初始化的重要性,权值衰减作为防止过拟合的手段,以及BatchNormalization和Dropout等正则化技术。
摘要由CSDN通过智能技术生成

🌞欢迎来到深度学习的世界 
🌈博客主页:卿云阁

💌欢迎关注🎉点赞👍收藏⭐️留言📝

🌟本文由卿云阁原创!

🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!


6.1 参数的更新

         神经网络的学习的目的是找到使损失函数的值尽可能小的参数。这是寻找最优参数的问题,解决这个问题的过程称为最优化 optimization 。为了找到最优参数,我们将参数的梯度(导数)作为了线索。 使用参数的梯度,沿梯度方向更新参数,并重复这个步骤多次,从而逐渐靠 近最优参数,这个过程称为随机梯度下降法 stochastic gradient descent , 简称SGD SGD 是一个简单的方法,不过比起胡乱地搜索参数空间,也算是“聪
明”的方法。但是,根据不同的问题,也存在比 SGD 更加聪明的方法。
6.1.1 探险家的故事
6.1.2 SGD

6.1.4 Momentum

 

 6.1.5 AdaGrad
     在关于学习率的有效技巧中,有一种被称为 学习率衰减 learning rate decay)的方法,即随着学习的进行,使学习率逐渐减小。实际上,一开始“多” 学,然后逐渐“少”学的方法,在神经网络的学习中经常被使用。 逐渐减小学习率的想法,相当于将“全体”参数的学习率值一起降低。 而AdaGrad 进一步发展了这个想法,针对“一个一个”的参数,赋予其“定制”的值。

 

 6.1.6 Adam

6.2 权重的初始值

6.2.1 可以将权重初始值设为0吗
          后面我们会介绍抑制过拟合、提高泛化能力的技巧——权值衰减( weight decay)。简单地说,权值衰减就是一种以减小权重参数的值为目的进行学习的方法。通过减小权重参数的值来抑制过拟合的发生。

6.3 Batch Normalization

Batch Norm ,顾名思义,以进行学习时的 mini-batch 为单位,按 minibatch进行正规化。具体而言,就是进行使数据分布的均值为 0 、方差为 1 的正规化。

6.4 正则化

6.4.2  权值衰减
  权值衰减 是一直以来经常被使用的一种抑制过拟合的方法。该方法通过在学习的过程中对大的权重进行惩罚,来抑制过拟合。很多过拟合原本就是因为权重参数取值过大才发生的。
6.4.3 Dropout
Dropout 是一种在学习的过程中随机删除神经元的方法。训练时,随机选出隐藏层的神经元,然后将其删除。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

卿云阁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值