求解下列最小二乘的解:
,其中
解法一:由基本的实值函数对向量的求导公式推导
解法二:使用线性变换的求导公式
解法三:元素法,网上搜索的绝大部分推导过程都是此法
下面只对上面两种解法解析,具体如下:
求解BN的反向传播公式
1.BN算法的计算过程如下:
其中m是批的大小,到 分别是m个不同样本对于某个神经元的输入,是这个批的总的损失函数,所有变量都是标量。
2.BN的变量依赖图如下:
左侧,右上,右下分别是三种不同的画法:左边的图是把所有变量都画了出来,比较清楚。右上是借鉴了概率图模型中的盘记号(plate notation),把带下标的变量用一个框框起来,在框的右下角指明重复次数。右下我只画了一个局部,只是为了说明在有些资料中,相同的变量(如本例中的 )只出现一次,而非像左图那样出现多次,从而图中会出现环。
3.根据变量依赖图,进行推导:
特别要注意,是否有多条路径影响损失函数的值。例如对于gama参数,因为对于一个批量m,每个样本都使用了该参数,所以有m条路经;对于经过归一化的样本,该样本只有一条路径对损失函数进行影响;对于均值变量,因为每个样本都要使用同一个均值变量,并且有两个路径,共m个样本所以是2m条路经,同时里面的一条路径又有m条路径。具体计算如下: