深度学习学习笔记六

最新推荐文章于 2025-02-21 16:49:24 发布

Lezvin

最新推荐文章于 2025-02-21 16:49:24 发布

阅读量2.5k

点赞数 1

分类专栏：强化学习笔记

本文链接：https://blog.csdn.net/x3464/article/details/109608113

版权

理论：

1.网络优化

递度下降：批量递度下降（BGD）、随机梯度下降（SGD）、小批量递度下降(MBGD)

批量递度下降（BGD）：

优点：

缺点：

从迭代的次数上来看，BGD迭代的次数相对较少。其迭代的收敛曲线示意图可以表示如下：

随机梯度下降：

随机梯度下降法不同于批量梯度下降，随机梯度下降是每次迭代使用一个样本来对参数进行更新。使得训练速度加快。

优点：

缺点：

小批量递度下降：

小批量梯度下降，是对批量梯度下降以及随机梯度下降的一个折中办法。其思想是：每次迭代 使用 ** batch_size** 个样本来对参数进行更新。

优点：

通过矩阵运算，每次在一个batch上优化神经网络参数并不会比单个数据慢太多。
每次使用一个batch可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。(比如上例中的30W，设置batch_size=100时，需要迭代3000次，远小于SGD的30W次)
可实现并行化。

缺点：

batch_size的选择带来的影响：

在合理地范围内，增大batch_size的好处：
1. 内存利用率提高了，大矩阵乘法的并行化效率提高。
2. 跑完一次 epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。
3. 在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。
盲目增大batch_size的坏处：
1. 内存利用率提高了，但是内存容量可能撑不住了。
2. 跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。
3. Batch_Size 增大到一定程度，其确定的下降方向已经基本不再变化。