【原创】深度学习学习笔记（二）-神经网络训练过程(1)

A.Star

已于 2022-05-19 16:26:05 修改

阅读量544

点赞数

分类专栏：神经网络深度学习文章标签：深度学习神经网络

于 2022-05-19 16:17:28 首次发布

本文链接：https://blog.csdn.net/ye_xiao_yu/article/details/124818889

版权

深度学习同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

神经网络

4 篇文章 0 订阅

订阅专栏

文章目录

1. 权重初始化

不初始化时，为0学不到东西
应使各层的激活值既不饱和也不为0，正确的初始化可以加快收敛，降低梯度消失、爆炸的风险
常见的初始化方法，小随机数初始化、服从一个多变量高斯分布或多变量均匀分布
初始化不合适，训练变慢难收敛
诊断方法
- 观察所有层的激活值和梯度分布的柱状图
  例：双曲正切激活函数在区间[-1,1]内都有分布，全为0或者全饱和都是有问题的
- 检查每一层的激活值和梯度方差

2. 偏置初始化

b：0
(relu有时用一个小值如0.01）

3. 损失函数loss

loss函数是定量估测预测值和目标值的偏差
$y)=\frac{1}{N}\sum_iL_i(f(x_i, w),y_i)$
其中，N是数据集数量，{( $x_i$ , $y_i$ ),…} 数据集， $x_i$ 是数据图像， $y_i$ 是标签值，w参数矩阵
其中 $L_i$ 需要根据网络不同进行不同的设置
如：

针对回归问题

均方误差（MSE）
$L=\frac1N\sum|y_i-s_i|^2$
$y_i$ 为目标标签值， $s_i$ 是输出的预测值

针对分类问题

交叉熵损失函数
交叉熵的含义：两个概率分布之间的差异程度（相关程度）
设有两概率分布： $p (x)$ , $q (x)$ p表示目标分布, q表示预测分布,有
$q)=-\sum_x p(x)\log(q(x))$
注意： $H (p, q) \neq = H (q, p)$
物理意义：用 $q (x)$ 来表示概率 $p (x)$ 的困难程度
交叉熵损失函数
$L=-\sum_iy_i\log {f(x_i, w)}$
其中 $f(x_i, w)$ 为输出分布， $y_i$ 取值范围为0或1, 其中目标类别取1，其他类别为0， $w$ 为参数矩阵
Softmax
$f(x_i,w)=\frac{e^{s_i}}{ \sum_j e^{s_j}}$
$s_i$ :输入样本 $x_i$ 时，softmax层之前的神经网络的输出得分

4.反向传播

逐层反向求损失函数对神经网络参数矩阵的梯度，用于参数更新

法则1、感知器法则（前提数据是线性可分的）
训练过程：从随机参数开始用感知器对每一个训练数据进行训练，当错误分类时，修改参数，如此重复，直到正确分类所有训练数据。
$w_i \leftarrow w_i + \Delta w_i$ $\Delta w_i \leftarrow \eta(t-o)x_i$
$x_i$ 是第 $i$ 个输入， $w_i$ 每次训练时 $x_i$ 对应的参数
$w_i$ 修正值， $t$ 是当前训练数据目标标签, $o$ 是感知器输出， $\eta$ 是学习速率，通常设为较小的值，如0.1、0.01，且会随训练数据的增加而变小。
法则2、delta法则
BP反向传播（backpropagation）
使用梯度下降法来逐步逼近最佳参数
输出 $o = w x$
均方差损失
$E(w_i, x)=\frac12\sum_{d\in D}(td-od)^2$
其中，D训练数据集， $t d$ 输入d的目标输出， $o d$ 实际预测输出
从随机参数开始，以很小的步伐，每一步都沿着梯度方向，修改参数，反复执行，知道找到全局最小误差点
$\leftarrow w + \Delta w$ $\Delta w \leftarrow -\eta\nabla E(w)$
其中 $\eta$ 为梯度下降中的步长，负号代表参数方向损失函数E下降的方向移动
$w_i \leftarrow w_i + \Delta w_i$ $\Delta w_i \leftarrow -\eta\frac {\partial E}{\partial{w_i}}$ $\Delta w_i \leftarrow \eta\sum_{d\in D}(td-od)\frac {\partial od-td}{\partial{w_i}} = \eta\sum_{d\in D}(td-od)x_{id}$

链式法则：将链路中所有局部梯度相乘

$\frac{\partial z}{\partial x} 、\frac{\partial z}{\partial y}$
$\frac{\partial l}{\partial x} = \frac{\partial l}{\partial z} \frac{\partial z}{\partial x}$
$\frac{\partial l}{\partial y} = \frac{\partial l}{\partial z} \frac{\partial z}{\partial y}$

A.Star

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【原创】深度学习学习笔记（二）-神经网络训练过程(1)

文章目录1. 权重初始化2. 偏置初始化3. 损失函数loss4.反向传播1. 权重初始化不初始化时，为0学不到东西应使各层的激活值既不饱和也不为0，正确的初始化可以加快收敛，降低梯度消失、爆炸的风险常见的初始化方法，小随机数初始化、服从一个多变量高斯分布或多变量均匀分布初始化不合适，训练变慢难收敛诊断方法观察所有层的激活值和梯度分布的柱状图例：双曲正切激活函数在区间[-1,1]内都有分布，全为0或者全饱和都是有问题的检查每一层的激活值和梯度方差2. 偏置初始化b：0(re
复制链接

扫一扫