李宏毅深度学习——Batch Normalization_李宏毅 batch normalization-CSDN博客

本文链接：https://blog.csdn.net/weixin_54542639/article/details/141831144

写在前面

本文是李宏毅深度学习2021版的batch normalization部分的笔记，并且参考了batch normalization那篇原来的论文

笔记部分

batch normalization,我们先来搞清楚他是解决什么问题的，他是解决这个Loss函数过于“崎岖”的问题，因为loss函数过于崎岖会很容易影响到我们梯度下降的效率，所以我们就需要去改变我们的x，也就是我们的feature的样式。

normalization，翻译过来就是归一化，batch normalization是这么归一化的：

简单讲述一下这个式子原论文作者是怎么个心路历程（不想知道的可以跳过）

这篇论文作者首先提到了一个词：Internal Covariate Shift，这个词是怎么定义的呢：

We define Internal Covariate Shift as the change in the distribution of network activations due to the change in network parameters during training.

也就是说，这篇文章的作者认为，我们要减少这个 Internal Covariate Shift才能让梯度下降更好的进行（虽然这个说法被后来的人所否定）。原论文中作者先想到的是白化（whitening）在作者那个年代，他们普遍认为输入数据的白化会让训练更快地收敛。但是作者认为，“如果这些修改与优化步骤穿插在一起，那么梯度下降步骤可能尝试以一种需要的方式更新参数这减少了梯度步长的影响”。原文作者举了个例子：