Lesson2--Batch正则化和程序框架

最新推荐文章于 2022-02-09 17:41:37 发布

Icevivina

最新推荐文章于 2022-02-09 17:41:37 发布

阅读量281

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/zhouhong0284/article/details/79812502

版权

深度学习专栏收录该内容

19 篇文章 1 订阅

订阅专栏

1 Batch Norm, BN

1）介绍Batch normalization

在logistic回归中，我们已经知道将输入归一化有助于加速训练，那么在神经网络中，我们不只需要将输入归一化，对隐藏层中activations同样需要归一化处理。一般，我们是对 $Z^{[l]}$ 进行归一化。
Batch Norm的步骤：
对每一层的激活单元 $z^{[l](i)}$ ，在后面的书写中省略上标[l]，先减去均值再除以标准偏差，为了使数值稳定，通常在分母加上 $\epsilon$ 以防止分母为0.因此有
这里写图片描述
现在，为了赋予各隐藏单元不同的分布，我们将计算

这里 $\gamma$ 和 $\beta$ 是你模型的学习参数,可以使用梯度下降或者梯度下降的优化算法求出来。我们计算可以得到当 $\gamma=\sqrt{\delta^2+\epsilon},\beta=\mu$ 时其实是还原了z的分布。
那么赋予影藏单元不同的分布的意义在于什么呢?
在3部分给出答案

2）在神经网络中使用Batch Norm

这里写图片描述
先将Batch Norm加入到神经网络架构中，对每一层神经网络中 $\gamma^{[l]}$ 和 $\beta^{[l]}$ 的训练使用梯度下降法或者是其优化算法。
$\gamma^{[l]}$ 和 $\beta^{[l]}$ 都是（ $n^{[l]}$ ,1）维的向量，也就是对不同维度的z均有一个均值和方差。
注意：要区分优化算法中的参数 $\beta$ 和均值 $\beta^{[l]}$ ,这是两个完全不一样的参数。
实际上，在mini-batch中不使用Batch Norm的时候，计算z的公式是 $z^{[l]}=w^{[l]}a^{[l-1]}+b^{[l]}$ ,在做Batch Norm之后，因为要先将 $z^{[l]}$ 归一化，因此无论 $b^{[l]}$ 的值是多少，都是要被减去的，所以在训练中，我们可以不考虑 $b^{[l]}$ 的值。
具体的。对每个mini-batch实施batch Norm的步骤是：
这里写图片描述

3）为什么Batch Norm是有效？

归一化输入，使得它们在同样的范围中可以加快训练速度；
使得后层中的权重可以适应前面权重的变化。
当前层的参数发生变化的时候，对后层来说，输入无时无刻不在变化，因此就会出现covariate shift的问题。这时Batch正则化的作用限制了在前层的参数更新对数值分布的影响，就是无论前层输入z如何变化，z的均值和方差不会变化。（全局理解）
regularization
每个nimi-batch集的归一化是对这一个mini-batch所做的，因此归一化之后的值 $z^{[l]}$ 在每一层上存在一些噪声，这些噪声和dropout带来的影响一样可以实现正则化。
另外的理解：
解决了反向传播过程中的梯度问题，如果不进行Batch norm，梯度可能会出梯度消失或者梯度爆炸。

4）测试时的Batch Norm

归一化时使用的均值和方差怎么做？
使用指数加权平均来计算每个mini-batch的均值和方差，然后使用最后的均值来对测试样本做归一化。
这里写图片描述

2 多类分类Softmax

C表示多分类的种类
使用softmax layer可以训练出多分类模型。
Activation function:
$t=e^{[z^l]}$ 先求出最后一层的z向量，通过z向量得到临时变量t
$a^l=\frac{t_i}{\sum_{i=1}^{c}t_i}$ 通过将t归一化得到输出 $\hat y$ ，输出就是属于各类的概率。
我们可以将最后一层理解为一个softmax激活函数的输出： $\hat y=g^l(z^l)$ ，与之前的激活函数不同的是，它的输入 $z^l$ 是一个向量，输出也是一个向量，而之前的激活函数，比如说Relu,输入是一个值z输出一个值a。
对于一个没有隐藏层的神经网络，使用softmax分类可以将输入线性映射到不同的类别中：
这里写图片描述
注意到它们的分类边界都是线性的。当输出只有两个类时，其实就是logistic回归。因此softmax是将logistics回归扩展到多分类。
什么是hardmax，就是不输出概率，而是直接输出所属类别向量，比如对于 $z^l=[5,2,-1,3]$ ，直接输出 $[1, 0, 0, 0]$ .
损失函数如何定义？对于单个输出 $L(y,\hat y)=-\sum_{i=1}^C y_i\log \hat y_i$ ,对于整体的样本集就是 $J=\frac{1}{m}\sum_{i=1}^mL(y^i, \hat y^i)$ .
含有softmax layer的梯度下降：
注意 $\rm d z^l=\hat y-y$
使用编程框架，给定正向传播公式，它就可以自动计算出反向传播公式。

3 深度学习框架

这里写图片描述
Tensorflow的典型范例：

先给定损失函数的系数，定义变量w和系数x，定义损失函数
然后给出模型的训练方法（梯度下降或者优化的梯度下降），目标（最小化损失函数）
后面几步是TensorFlow中常用的规则性语句
最后输入迭代次数进行多次梯度下降求变量w的拟合成果。

总结

这周学习完成之后，你应该可以回答以下几个问题：
1.Batch Norm是在干什么，它的原理及好处?
2.多类分类时的softmax是如何进行的？
3.学会基本的tensorflow使用。

Icevivina

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lesson2--Batch正则化和程序框架

1 超参数调试1）超参数红色是最重要的，黄色次之，紫色再次之。2）调节超参数的方法两种方法：1.随机取值；2.从大范围到小范围（从粗糙到精细）随机取值的好处是在你不知道哪个参数更重要的时候，可以得到更多不一样的取值，比如αα\alpha与ϵϵ\epsilon一起调试的时候，如果使用网格搜索，那么不同ϵϵ\epsilon下相同αα\alpha得到的效果其实差不多。从粗...
复制链接

扫一扫