最小二乘法解的矩阵形式推导,以及BN(batch normalization)的求导公式

求解下列最小二乘的解:

                                                       \min_{x}\frac{1}{2}||Ax-b||_{2}^{2}+\lambda||x||_{2}^{2},其中A\subseteq R^{n\times n},x\in{R^{n}},b\in{R^{n}},\lambda\in{R},rank(A)=n

解法一:由基本的实值函数对向量的求导公式推导

解法二:使用线性变换的求导公式

解法三:元素法,网上搜索的绝大部分推导过程都是此法

下面只对上面两种解法解析,具体如下:

求解BN的反向传播公式

1.BN算法的计算过程如下:

其中m是批的大小,x_{1}x_{m} 分别是m个不同样本对于某个神经元的输入,\l是这个批的总的损失函数,所有变量都是标量。

2.BN的变量依赖图如下:

 左侧,右上,右下分别是三种不同的画法:左边的图是把所有变量x_{i}都画了出来,比较清楚。右上是借鉴了概率图模型中的盘记号(plate notation),把带下标的变量用一个框框起来,在框的右下角指明重复次数。右下我只画了一个局部,只是为了说明在有些资料中,相同的变量(如本例中的 )只出现一次,而非像左图那样出现多次,从而图中会出现环。

3.根据变量依赖图,进行推导:

特别要注意,是否有多条路径影响损失函数的值。例如对于gama参数,因为对于一个批量m,每个样本都使用了该参数,所以有m条路经;对于经过归一化的样本,该样本只有一条路径对损失函数进行影响;对于均值变量,因为每个样本都要使用同一个均值变量,并且有两个路径,共m个样本所以是2m条路经,同时里面的一条路径又有m条路径。具体计算如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值