Datawhale X 李宏毅苹果书 AI夏令营 task1

二向箔击中的蛋蛋

已于 2024-08-27 19:58:20 修改

阅读量820

点赞数 28

文章标签：人工智能

于 2024-08-27 14:03:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46490859/article/details/141596135

版权

目录

2 逃离：局部最小值与鞍点

3 改进梯度下降法

3.2 方法比较

3.3 batch_size的设置

3.4.1 确定最大的batch_size

3.4.2 少量数据去尝试

3.4.3 最后跑全部数据

1 前言

本次笔记涉及苹果书3.1~3.2章节，教学资料来源于datawhale AI夏令营。本次笔记的主要内容除了概念总结，还进行了概念的比较和我过去的实践经验思考（本文3.4部分）。

夏令营链接：Datawhale

苹果书开源链接：https://github.com/datawhalechina/leedl-tutorial

B站教程：李宏毅《机器学习/深度学习》2021课程（国语版本，已授权）_哔哩哔哩_bilibili

苹果书：《深度学习详解》人民邮电出版社（ISBN：9787115642110）

2 逃离：局部最小值与鞍点

2.1 概念

临界点：梯度为0的地方，局部最小值和鞍点都是临界点。

局部最小值：不是真正的最小值但是周围都比它高。

鞍点：虽然梯度为0并且有一个方向上它是局部最小值，但是另一个方向上它是局部最大值。

海森矩阵：能用于临界点的类型判断，同时给出逃离鞍点的方向。但是涉及二次微分计算，运算量大几乎不会实际使用。

2.2 方法

局部最小值和鞍点都会卡住梯度下降，但是经验上看大部分情况都是鞍点（参考苹果书3.1.3），所以会比较容易解决。

类型

判断

解决方案

局部最小值

海森矩阵特征值

动量法（苹果书3.2.2）

鞍点

海森矩阵特征值

随机梯度下降（苹果书3.2.1）

动量法（苹果书3.2.2）

自适应学习率方法（苹果书3.3）

3 改进梯度下降法

3.1 概念

回合（epochs）：训练轮数，每一个回合训练完全部的数据量。

批量大小（batch_size）：把一轮 epoch 中分成几批数据，batch_size 就是每一批训练的数据数量。假设总数据量为N，那么每一轮就会进行 (N / batch_size) 批。批次顺序也会随机打乱。

批量梯度下降法（BGD）：走完全部数据，也就是每一轮才更新1次参数。

随机梯度下降法（SGD）：每一条数据都更新一次参数，假设总数据量为N，那么每一轮就会进行N次更新。

小批量梯度下降（MBGD）：每一批都更新参数，那么每一轮就会更新 (N / batch_size) 次。

3.2 方法比较

方法	更新参数	每轮更新次数	逃出鞍点	每回合速度
批量梯度下降法（BGD）	每一轮（epoch）	1	不容易逃出	最快
随机梯度下降法（SGD）	每一条	N	更容易逃出	最慢
小批量梯度下降（MBGD）	每一批（batch）	N / batch_size	更容易逃出	中间

3.3 batch_size的设置

感觉 batch_size 设置为 full 或者1都有些极端。

我认为设置一个合适的 batch_size 对训练很重要。

batch_size 大小	显存	每个回合的速度	精度
大	占用大	并行时快	可能低
小	占用小	并行时慢	可能更高

3.4 实战

3.4.1 确定最大的batch_size

因为 batch_size 过大会爆显存（如图，Out of memory error on GPU），所以我的第一步是先确定我能跑的、最大的 batch_size。

在我跑毕业论文的时候，40G内存的上限 batch_size 大约是28。

3.4.2 少量数据去尝试

这样比较省时间，数据不要全跑。记录结果比较，试出合适的 batch_size 。

3.4.3 最后跑全部数据

最后是在四张Tesla V100 32G的显卡上跑了16的 batch_size。

算力支持来源于百度飞浆，可以阅读我的另一篇文章

飞桨PaddlePaddle平台算力白嫖从入门到入狱不完全指南（Datawhale AI 夏令营）_飞桨算力-CSDN博客

4 动量法

一图胜过千言万语，借用物理的“惯性”来越过鞍点和局部最小值。

我认为是非常巧妙的构思。

5 小结

毕业论文有调过 batch_size 和 epochs，所以这部分写得比较多。

而动量法目前还没有尝试过，所以这部分描写较少。

期待这部分理论的深入学习能在未来的项目中发挥作用。

二向箔击中的蛋蛋

关注

28
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 李宏毅苹果书 AI夏令营 task1

本次笔记涉及苹果书3.1~3.2章节，教学资料来源于datawhale AI夏令营。本次笔记的主要内容除了概念总结，还进行了概念的比较和我过去的实践经验思考（本文3.4部分）。Datawhale苹果书开源链接：https://github.com/datawhalechina/leedl-tutorial李宏毅《机器学习/深度学习》2021课程（国语版本，已授权）_哔哩哔哩_bilibili苹果书：《深度学习详解》人民邮电出版社（ISBN：9787115642110）最后是在四张Tesla V100。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。