《动手学深度学习》笔记1.10——激活函数←模型初始化←数值稳定性

陈苏同学

已于 2024-09-21 07:23:48 修改

阅读量339

点赞数 5

分类专栏： 1.DL基础《动手学深度学习》笔记（PyTorch版）文章标签：笔记深度学习 pytorch 人工智能算法

于 2024-09-20 19:13:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57972634/article/details/142373985

版权

1.DL基础《动手学深度学习》笔记（PyTorch版）专栏收录该内容

13 篇文章 1 订阅

订阅专栏

目录

1. 数值稳定性

1.1 神经网络的梯度

1.2 数值稳定性的常见两个问题

1.3 梯度爆炸

1.3.1 MLP的例子

1.3.2 使用ReLU激活函数

1.3.3 产生的问题

1.4 梯度消失

1.4.1 使用sigmoid激活函数

1.4.2 梯度消失的问题

2. 让训练更稳定

2.1 目标 (ResNet, LSTM相关)

2.2 模型初始化 (W)

2.3 期望与方差 (MLP为例)

2.4 Xavier 初始化

2.5 激活函数 (σ)

2.6 常用激活函数

1. 数值稳定性

1.1 神经网络的梯度

1.2 数值稳定性的常见两个问题

1.3 梯度爆炸

1.3.1 MLP的例子

这是多层感知机第t层的形状
$h^{t}$ ：第t层隐藏层的输出
$h^{t-1}$ ：第t层隐藏层的的输入
σ激活函数：给神经元引入非线性特性，如ReLU
diag()：对角矩阵

1.3.2 使用ReLU激活函数

如果 d-t 很大，说明网络很深，值将会很大，导致梯度爆炸

1.3.3 产生的问题

1.4 梯度消失

1.4.1 使用sigmoid激活函数

横坐标是输入，对应的是这里 ↓

如果输入很大（比如6），梯度约等于0，模型不动了

1.4.2 梯度消失的问题

1.5 总结

2. 让训练更稳定

2.1 目标 (ResNet, LSTM相关)

李沐老师： “让乘法变加法”

常使用 “让乘法变加法” 来训练的模型，包括ResNet, LSTM, CNN
原先是用乘法进行线性变换：在深度神经网络中，每一层的输出是前一层输出的加权和，这里的权重（即神经网络中的参数）与输入的元素逐个相乘，然后求和
乘法容易导致梯度消失/爆炸（指数效应）
ResNet的核心：层数很多的时候，使用加法而不是乘法 (来传递信号)
LSTM：时序就是句子长度，例如把句子按照单词 (一个单词一个时序) 划分成一个一个的时序 (输入)
原始的时序神经网络是对每一个时序做乘法，句子太长就会梯度消失/爆炸
LSTM将乘法变成加法
加法出问题的概率远低于乘法

归一化：把梯度拉回来，均值为0，方差为1
梯度剪裁：比如梯度大于5就强行等于5，小于-5的梯度也变为-5（即设置上限）

合理的权重初始化和激活函数是这里的重点！

2.2 模型初始化 (W)

2.3 期望与方差 (MLP为例)

期望：

$n_{t-1}$ ：前一层网络输出的个数（即前一层神经元的数量）
$\gamma _{t}$ ：为了让第t层网络的输入和输出的方差相等，在权重初始化时设置的 (方差)

李沐老师：反向和正向一样

2.4 Xavier 初始化

李沐老师：

Xavier 是常用的权重初始化方法
Xavier 大致是指在权重初始化时，根据输入和输出的维度设置方差
Xavier 核心思想是保持每层激活前后数据的方差一致，以避免梯度消失或梯度爆炸问题

2.5 激活函数 (σ)

李沐老师：

咱前面的算法都没有激活函数
这里假设为线性，是为了方便分析（用2维理解高维度）

2.6 常用激活函数

2.7 总结

合理的权重初始值和激活函数的选取可以提升数值稳定性

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。