梯度下降小结

1.梯度下降法(Batch Gradient Desent,BGD):

总体m个样本,损失函数:

J(\theta_0,\theta _1) = \frac{1}{2m}\sum_{i=1}^{m}(h_\theta (x^{(i)} ) - y^{(i)})^2

计算损失函数梯度:

g = \frac{\partial J(\theta _0,\theta _1)}{\partial \theta _j} = \frac{1}{m}\sum_{i=1}^{m}(h_\theta (x^{(i)}) - y^{(i)})) {x_j}^{(i)}

参数更新:

\theta_j := \theta _j - \alpha g

2.随机梯度下降法(Stochastic Gradient Desent,SGD):

对于一个样本的损失函数:

J^{(i)}(\theta _0, \theta _1) = \frac{1}{2} (h_\theta (x^{(i)}) - y^{(i)})^2

计算损失函数的梯度:

\frac{\partial J^{(i)(\theta _0, \theta _1)}}{\partial \theta _j} =(h_\theta (x^{(i)}) - y^{(i)}) {x_j}^{(i)}

参数更新:

\theta _j := \theta_j - \alpha (h_\theta (x^{(i)}) - y^{(i)}) {x_j}^{(i)}

3.小批量梯度下降(Mini-batch Gradient Desent , MBGD)

m^{'}个样本的损失函数

J(\theta_0,\theta _1) = \frac{1}{2m^{'}}\sum_{i=1}^{m^{'}}(h_\theta (x^{(i)} ) - y^{(i)})^2

损失函数的梯度:

g = \frac{\partial J(\theta _0,\theta _1)}{\partial \theta _j} = \frac{1}{m^{'}}\sum_{i=1}^{m^{'}}(h_\theta (x^{(i)}) - y^{(i)})) {x_j}^{(i)}

参数更新:

\theta_j := \theta _j - \alpha g

小结:BGD稳定,但是计算的慢;SGD不稳定,但是计算的快,MBGD综合了BGD和SGD

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值