开始我认为训练集中的的所有数据都会训练,那分不分批次无关紧要,一个批次多少训练集也无关。
根据查阅资料,估计应该是这样的?
假设1000人在讨论某个方案(权重设置)应该如何做。那一个人一个的讨论,每次就是倾向他自己的最优方案,权重是想他自己靠近。
而如果一次100个人,那讨论的结果就是最大可能的倾向这100个人整体,而不是某一个人。
那这个就导致权重更平整化。同时也不是逐个样本更新梯度,而是对整个批次的样本同时进行计算,然后一次性更新梯度。同时这里也利用了GPU的并行计算。
一个人的意见有时候可能会比较偏激,导致方案变化大(权重变化大),波动比较大?
而100人的意见可能就比较平稳,导致波动小,导致更平稳的训练过程和更快的收敛。