2022最新版-李宏毅机器学习深度学习课程-P14 批次(batch)与动量(momentum)

QwQllly

已于 2023-10-30 18:37:31 修改

阅读量160

点赞数

分类专栏：李宏毅机器学习深度学习文章标签：机器学习深度学习人工智能

于 2023-10-12 14:57:28 首次发布

本文链接：https://blog.csdn.net/weixin_45626133/article/details/133789937

版权

李宏毅机器学习深度学习专栏收录该内容

25 篇文章 3 订阅

订阅专栏

解决卡在 critical point 的第一种办法：BatchSize （大小的选择与优缺点）

将一笔大型资料分若干批次计算 loss 和梯度，从而更新参数。每看完一个epoch 就把这笔大型资料打乱（shuffle），然后重新分批次。这样能保证每个 epoch 中的 batch 资料不同，避免偶然性。

一、batch

回顾epoch、shuffle

1. 运算时间对比

设大批次含有20笔资料，小批次含有1笔资料，那么大批次就是看完20笔资料后再更新参数，而小批次则是看1笔资料就更新一次参数，总共更新20次。我们可以看到大批次的单次运算时间长但效果好，小批次的单次运算时间短但效果差，需要运算多次效果才好。

batch size大还是小？都有好处

考虑 gpu “并行计算”，大的 BatchSize 并不一定时间比较长

刚刚讲的运算时间是针对单次更新，而在1 个 epoch 中，小批次反而耗时更长，大批次耗时更短。原因是：同样是60000笔资料，小批次要更新60000次，而大批次只要更新60次，更新速度又是差不多的，最后叠加起来肯定是大批次耗时更少。不过，GPU 平行运算的能力也有它的极限，当 Batch Size 真的非常非常巨大的时候，GPU 在跑完一个 Batch 后计算出 Gradient 所花费的时间，还是会随著 Batch Size 的增加而逐渐增长

总结：没有平行运算时，单次更新大批次耗时更长；有平行运算时，单次更新大小批次耗时差不多，而 1 个 epoch中大批次耗时更短。

反而是，batch size小的时候，要跑完一个epoch所用的update时间更长，所以时间方面的比较真不好说~

2. 性能对比

小批次有更好的性能，由图可知同一个模型，同一个网络，training误差随着batch size 的增大而增大，testing 的误差也是。如果是 model bias 的问题，那么在 size 小的时候也会表现差，而不会等到 size 变大才差。所以这是Optimization issue（优化问题）导致大批次性能差。

①小批次有更好的性能

由图可知同一个模型，同一个网络，training 误差随着 batch size 的增大而增大，testing 的误差也是。根据之前学到的内容，如果是 model bias 的问题，那么在 BatchSize 小的时候也会表现差，而不会等到 size 变大才差。所以这是Optimization issue（优化问题）导致大批次性能差。