【学习笔记3】Neural Network --BP方法

最新推荐文章于 2023-09-21 10:05:13 发布

xkbb3144

最新推荐文章于 2023-09-21 10:05:13 发布

阅读量473

点赞数

分类专栏：机器学习文章标签：神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xkbb3144/article/details/48158691

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

机器学习算法可以看做是对于Logistic Regression的一种升级版，其主要的思想是构建分层的神经网络结构，层与层之间以非线性映射的方法进行连接，通过这种多层的非线性关系来拟合复杂的Decision Boundary。
一个神经网络至少包含输入层和输出层，可以有一个或多个隐藏层。隐藏层就是处于输入层和输出层之间、对外不可见的层。一般来讲，隐藏层越多，学习的效果越好，但是相应的学习计算代价就越大。
对于一个神经网络，其学习参数的个数是由层数和每层中节点个数决定的。每相邻两层有一个参数矩阵 $\Theta$ ，若前一层有节点 $m$ 个（不包含bias节点），当前层由节点 $n$ 个（也不含bias节点），那么 $\Theta$ 就是一个 $n\times (m+1)$ 的矩阵。一个有L层的神经网络需要学习 $L-1$ 个参数矩阵。在这个课程里吴老师主要介绍了如何使用Backpropagation方法来进行学习。
首先给出模型，输入为一个 $m\times k$ 的矩阵 $X$ ，代表有 $m$ 个样本， $k$ 个特征维度。取其中一个行向量（一个样本） $x_i$ ,在开头添加一个元素1，并转为列向量，记为 $a_1$ 。那么根据 $a_1$ 计算得到的第二层的值 $a_2$ 可以表示为

a 2 = h Θ (a 1) = g (Θ a 1)

$a_2 = h_\Theta(a_1)=g(\Theta a_1)$ 其中

a2 $a_2$ 并不包含bias分量，在计算下一层值时需要额外添加；而

g(z) $g(z)$ 表示一个非线性函数，本课程中采用的是sigmoid函数

g (z) = 1 1 + e - z

$g(z)=\dfrac{1}{1+e^{-z}}$
Cost Function的定义与Logistic Regression相似，不过需要对

k $k$ 个输出同时求和：

J (Θ) = 1 m \sum i = 1 m \sum j = 1 k (- y i, j l o g (h Θ (x i)) - (1 - y i, j) l o g (1 - h Θ (x I)))

$J(\Theta)=\dfrac{1}{m}\sum_{i=1}^m\sum_{j=1}^k(-y_{i,j}log(h_\Theta(x_i))-(1-y_{i,j})log(1-h_\Theta(x_I)))$
根据之前的经验，有了Cost Function，只要再分别计算出它关于每个参数

θ $\theta$ 的偏导数就可以使用Gradient Decent或类似的优化方法来进行学习了。这里计算偏导数使用的是Backpropagation算法。
算法的思想是，如果对于每一个参数直接求导则运算量太大，希望通过递推的方式来求得所有的偏导数。通过分析可以发现，

h′Θ(x)=hΘ(x)(1−hΘ(x))x′ $h_\Theta'(x)=h_\Theta(x)(1-h_\Theta(x))x'$ ,带入

J′(Θ) $J'(\Theta)$ 可以得到对输出层对应的参数矩阵

Θ $\Theta$ 有

J' (Θ) = 1 m \sum i = 1 m \sum j = 1 k (h Θ (x i) - y i, j) x i

$J'(\Theta)=\dfrac{1}{m}\sum_{i=1}^m\sum_{j=1}^k(h_\Theta(x_i)-y_{i,j})x_i$ 其中最后一个

xi $x_i$ 是由于对最后一个矩阵中元素求导得到的，也就是最后一个隐藏层节点的值。若是要对最后一个隐藏层中元素求导，则最后一项应变为对

Θxi $\Theta x_i$ 中

xi $x_i$ 求导，因此应得到

xi(1−xi)Θai $x_i(1-x_i)\Theta a_i$ ，这里

ai $a_i$ 是倒数第二个隐藏层节点的值。
由此，对倒数第二个参数矩阵求导的结果应为：

J' (Θ) = 1 m \sum i = 1 m \sum j = 1 k (h Θ (x i) - y i, j) x i (1 - x i) Θ a i

$J'(\Theta)=\dfrac{1}{m}\sum_{i=1}^m\sum_{j=1}^k(h_\Theta(x_i)-y_{i,j})x_i(1-x_i)\Theta a_i$ 若要继续对之前的

Θ $\Theta$ 求导，那么可以根据这个思路继续对

ai $a_i$ 求导即可。总结规律可以发现，如果我们记

J' (Θ i) = 1 m \sum i = 1 m \sum j = 1 k δ i, j x i

$J'(\Theta_i)=\dfrac{1}{m}\sum_{i=1}^m\sum_{j=1}^k\delta_{i,j} x_i$ ，那么就有

δ i - 1, s l = δ i, j x i (1 - x i) Θ i

$\delta_{i-1,s_l}=\delta_{i,j} x_i(1-x_i) \Theta_i$ 根据这个就可以用递推的方式得到所有的

J′(Θ) $J'(\Theta)$ 。
这就是Backpropagation的主要思想。除此之外，还可以使用数值方法计算每一个

J′(Θ) $J'(\Theta)$ ,即

J' (θ) = J ( θ + ϵ ) - J ( θ - ϵ ) 2 ϵ

$J'(\theta)=\dfrac{J(\theta + \epsilon)-J(\theta - \epsilon)}{2\epsilon}$ 这里取

ϵ $\epsilon$ 足够小（如

10−4 $10^{-4}$ ）,对于第一遍使用BP方法得到的

J′(Θ) $J'(\Theta)$ 进行验证，可以保证运算的正确性。这就是Gradient Checking，但是当确定正确之后应当将其关闭，因为数值方法运算非常非常慢。
还有一个需要注意的问题就是在选择初始化

Θ $\Theta$ 的时候，不能使用全部相同的值，否则会导致神经网络节点之间没有差异性，从而学习失败。一般使用随机矩阵的方法来生成，如 init_theta = 2*epsilon*rand(m,n) - epsilon。还有就是做Regularization的时候

λ $\lambda$ 的取值有一个经验公式，即

6√n√m+1−−−−−√ $\dfrac{\sqrt{6}}{\sqrt{n} \sqrt{m+1}}$ 。
使用了Octave中的fmincg方法进行学习，得到了不错的效果。
有机会要研究一下神经网络背后的原理。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。