机器学习之梯度下降法

Tip1: 正则化的作用

         损失函数在不加正则化项时容易overfitting,因此在自己实现的时候最好在损失函数中加上正则化这一项,这一项有助于使找到的参数比较小(参数小的函数非常较滑)。

Tip2: Adagrad的作用

     在梯度下降中,如果learning rate 的值是固定不变的是不符合,当越接近损失函数最小值点移动步子应该最小的规则。Adagrad可以使learning rate在梯度下降的过程中,随着参数的更新而越来越小,这是科学的。

 

分母即为Adagrad的方法。

Tip3:Stochastic Gradient Descent可以使得训练更快一点

此方法看一个测试用例就会更新一次参数,速度要比看所有的测试用例更新一次参数快。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值