BN层计算的为什么不是协方差矩阵的理解

最新推荐文章于 2023-03-14 21:47:31 发布

ginger188

最新推荐文章于 2023-03-14 21:47:31 发布

阅读量1.7k

点赞数 3

分类专栏：机器学习文章标签： batch-norm

本文链接：https://blog.csdn.net/winter_evening/article/details/72083790

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

首先介绍一下我的博客AI’Boy，刚刚搭建完成hhhh

Note that the use of minibatches is enabled by computation of per-dimension variances rather than joint covariances; in the joint case, regularization would be required since the mini-batch size is
likely to be smaller than the number of activations being
whitened, resulting in singular covariance matrices.

问题

最近在看Batch Normalization 一文中看到其中提到因为mini-batch中的样本数往往小于样本的维度(也就是图像的尺寸)，因此如果求协方差得到的就是奇异协方差矩阵(singular covariance matrices)，所以在BN中用的都是每个维度单独的方差。刚开始看的时候对于产生奇异协方差矩阵这一段不是很理解，通过google寻找了相关资料后才弄明白，这里简单的做一个记录。

协方差矩阵的秩

这里首先需要知道一个知识，就是一个协方差矩阵的秩永远小于等于n-1，其中n是样本数。这个知识的证明在这里。
我们首先假设样本 $x_i\subseteq \chi,i=1...n$ ， $x_i$ 的维度为d，样本集 $\chi$ 的协方差矩阵可以写作

C = 1 n - 1 \sum i = 1 n (x i - x^) (x i - x^) T

$C=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\hat x)(x_i-\hat x)^T$ (1)
其中

x^=∑xin $\hat x=\frac{\sum x_i}{n}$ ，是所有样本维的均值，是个d*1的向量。然后把

xi−x^ $x_i-\hat x$ 写作

zi $z_i$ ，(1)式可以重新写作

C = 1 n - 1 \sum i = 1 n z i z i T

$C=\frac{1}{n-1}\sum_{i=1}^{n}{z_i}{z_i}^T$ (2)
其中

1n−1 $\frac{1}{n-1}$ 这一项并不会改变C的秩，因此就变成了 为什么 $rank(\sum_{i=1}^{n}{z_i}{z_i}^T)\le n-1$ 的问题。

首先，求和项中每一项 ${z_i}{z_i}^T$ 的秩均为1(一个d*1和1*d的矩阵相乘秩为1 )。根据上面的代换，易得 $\sum z_i=0$ ，可以重新写成如下的形式：

z n = - \sum i = 1 n - 1 z i

$z_n=-\sum_{i=1}^{n-1}z_i$ {3}
现在将(3)代入(2)式中，可以重写为：

C = 1 n - 1 {\sum i = 1 n - 1 z i z i T + (- \sum i = 1 n - 1 z i) z n T} = 1 n - 1 \sum i = 1 n - 1 z i (z i - z n) T

$C=\frac{1}{n-1}\{\sum_{i=1}^{n-1}{z_i}{z_i}^T+(-\sum_{i=1}^{n-1}z_i){z_n}^T\}=\frac{1}{n-1}\sum_{i=1}^{n-1}{z_i}(z_i-z_n)^T$ (4)
可以看出C的秩其实是由n-1个秩为1的项相加而来，同时这也解释了为什么算协方差是除的是n-1而不是n.