为什么批次的数量会影响训练结果?

开始我认为训练集中的的所有数据都会训练,那分不分批次无关紧要,一个批次多少训练集也无关。

根据查阅资料,估计应该是这样的?

假设1000人在讨论某个方案(权重设置)应该如何做。那一个人一个的讨论,每次就是倾向他自己的最优方案,权重是想他自己靠近。

而如果一次100个人,那讨论的结果就是最大可能的倾向这100个人整体,而不是某一个人。

那这个就导致权重更平整化。同时也不是逐个样本更新梯度,而是对整个批次的样本同时进行计算,然后一次性更新梯度。同时这里也利用了GPU的并行计算。

一个人的意见有时候可能会比较偏激,导致方案变化大(权重变化大),波动比较大?

而100人的意见可能就比较平稳,导致波动小,导致更平稳的训练过程和更快的收敛。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值