Deep learning II - II Optimization algorithms - Mini-batch gradient descent

Mini-batch gradient descent


这里写图片描述
这里写图片描述
1. 用batch gradient descent时,当数据量巨大时,向量化的实现同样很慢,并且需要处理全部数据后,gradient才会得到更新
2. 使用mini-batch gradient descent来训练时,每一个mini-batch都能时gradient得到更新(但不一定都使 L L 下降)
这里写图片描述
3. mini-batch的大小如果是1,则为stochastic gradient descent,其在训练时,向量化的优势一点也没用上,收敛路径非常曲折,并不会真正收敛到某一点。
这里写图片描述
4. 参考stochastic和batch gradient descent两个极端,mini-batch既用到了vectorizing的加速,又避免了每次迭代需要很长时间的问题,因此是最快的方法。
这里写图片描述
5. m≤2000,用batch gradient descent;否则,使用mini-batch gradient descent,size可以选取 26(64),27(128),28(256),29(512) 2 6 ( 64 ) , 2 7 ( 128 ) , 2 8 ( 256 ) , 2 9 ( 512 )

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值