作者:寒小阳
时间:2015年12月。
出处:http://blog.csdn.net/han_xiaoyang/article/details/50321873
声明:版权所有,转载请联系作者并注明出处
1. 引言
其实一开始要讲这部分内容,我是拒绝的,原因是我觉得有一种写高数课总结的感觉。而一般直观上理解反向传播算法就是求导的一个链式法则而已。但是偏偏理解这部分和其中的细节对于神经网络的设计和调整优化又是有用的,所以硬着头皮写写吧。
问题描述与动机:
-
大家都知道的,其实我们就是在给定的图像像素向量x和对应的函数 f ( x ) f(x) f(x),然后我们希望能够计算 f f f在 x x x上的梯度( ∇ f ( x ) \nabla f(x) ∇f(x))
-
我们之所以想解决这个问题,是因为在神经网络中, f f f对应损失函数 L L L,而输入 x x x则对应训练样本数据和神经网络的权重 W W W。举一个特例,损失函数可以是SVM loss function,而输入则对应样本数据 ( x i , y i ) , i = 1 … N (x_i,y_i),i=1 \ldots N (xi,yi),i=1…N和权重 W W W以及偏移项 b b b。需要注意的一点是,在我们的场景下,通常我们认为训练数据是给定的,而权重是我们可以控制的变量。因此我们为了更新权重的等参数,使得损失函数值最小,我们通常是计算 f f f对参数 W , b W,b W,b的梯度。不过我们计算其在 x i x_i xi上的梯度有时候也是有用的,比如如果我们想做可视化以及了解神经网络在『做什么』的时候。
2.高数梯度/偏导基础
好了,现在开始复习高数课了,从最简单的例子开始,假如 f ( x , y ) = x y f(x,y)=xy f(x,y)=xy,那我们可以求这个函数对 x x x和 y y y的偏导,如下:
f ( x , y ) = x y → ∂ f ∂ x = y ∂ f ∂ y = x f(x,y) = x y \hspace{0.5in} \rightarrow \hspace{0.5in} \frac{\partial f}{\partial x} = y \hspace{0.5in} \frac{\partial f}{\partial y} = x f(x,y)=xy→∂x∂f=y∂y∂f=x
2.1 解释
我们知道偏导数实际表示的含义:一个函数在给定变量所在维度,当前点附近的一个变化率。也就是:
d f ( x ) d x = lim h → 0 f ( x + h ) − f ( x ) h \frac{df(x)}{dx} = \lim_{h\ \to 0} \frac{f(x + h) - f(x)}{h} dxdf(x)=h →0limhf(x+h)−f(x)
以上公式中的 d d x \frac{d}{dx} dxd作用在 f f f上,表示对x求偏导数,表示的是x维度上当前点位置周边很小区域的变化率。举个例子,如果 x = 4 , y = − 3 x = 4, y = -3 x=4,y=−3,而 f ( x , y ) = −