深度学习基础知识总结

1.优化算法

  1. Momentum
    在这里插入图片描述
    Momentum 在更新参数的时候没有直接使用当前导数,而是用的指数平均值 将历史的导数做了记录,并且当前的权重的最大的,之前的依次递减

超参数设定值: 一般 γ 取值 0.9 左右。

优点:
可以使得梯度方向不变的维度上速度变快,梯度方向有所改变的维度上的更新速度变慢,这样就可以加快收敛并减小震荡。

  1. Nesterov Accelerated Gradient

在这里插入图片描述

  1. Adagrad (Adaptive gradient algorithm)
    这个算法就可以对低频的参数做较大的更新,对高频的做较小的更新,也因此,对于稀疏的数据它的表现很好,很好地提高了 SGD 的鲁棒性
    在这里插入图片描述
    这个算法与上一个属于同一类,不过坟分母使用的指数平均值所以解决了学习率急剧下降的问题在这里插入图片描述

3. Adam

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值