神经网络的学习机器学习基础(4)

最新推荐文章于 2024-04-27 11:33:06 发布

海上机械师

最新推荐文章于 2024-04-27 11:33:06 发布

阅读量1.3k

点赞数 3

分类专栏：算法机器学习文章标签：神经网络机器学习反向传播 BP

本文链接：https://blog.csdn.net/i_love_home/article/details/50700118

版权

算法同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

机器学习

15 篇文章 0 订阅

订阅专栏

神经网络包含前向传播与反向传播。

1 代价函数与反向传播

1.1 代价函数

二类别分类：0 或 1，记 $k = 2$
多类别分类： $R^{k}$ ，记 $k > 2$

神经网络示意图

神经网络的代价函数，与逻辑回归的代价函数类似，记做

神经网络代价函数

注意点：
神经网络中的 ${h_\theta }\left( x \right)$ 的定义形式未知，或可参考 ${h_\theta }\left( x \right) = g\left( {\theta x} \right)$ （逻辑回归）。

1.2 反向传播算法（BP）

求解神经网络代价函数的梯度可采用梯度算法或反向传播算法。
计算神经网络代价函数的最小值，即

min J (θ)

$\min ~ J\left( \theta \right)$
要求计算代价函数的值及其梯度值，即

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ J (θ) \partial \partial θ ( l ) i j J (θ)

$\left\{ \begin{array}{l} J\left( \theta \right)\\ \frac{\partial }{{\partial \theta _{ij}^{\left( l \right)}}}J\left( \theta \right) \end{array} \right.$
其中，定义梯度值

D (l) i j = \partial \partial θ ( l ) i j J (θ)

$D_{ij}^{\left( l \right)} = \frac{\partial }{{\partial \theta _{ij}^{\left( l \right)}}}J\left( \theta \right)$

反向传播算法

1.3 反向传播直观的表达

前向与反向传播

2 反向传递实践

2.1 实现：参数展开

参数展开便于变量的存储与运算，实质是使“矩阵与向量”转换方便。

2.1.1 高级优化算法

代价函数与优化方法的形式：

Function [jval, gradient] = costFunction(theta)
…
optTheta = fminunc(@costFunction, initialThetam options)

其中 $gradient \in R^{n+1}$ ， $theta \in R^{n+1}$ 。

神经网络模型（L=4），

${\theta ^{\left( 1 \right)}},{\theta ^{\left( 2 \right)}},{\theta ^{\left( 3 \right)}} - matrices\left( {\begin{array}{*{20}{c}} {Theta1,}&{Theta2,}&{Theta3} \end{array}} \right)$

${D^{\left( 1 \right)}},{D^{\left( 2 \right)}},{D^{\left( 3 \right)}} - matrices\left( {\begin{array}{*{20}{c}} {D1,}&{D2,}&{D3} \end{array}} \right)$

2.1.2 例子

$S_1 = 10, S_2 = 10, S_3 = 1$

${\theta ^{\left( 1 \right)}} \in {R^{10 \times 11}},{\theta ^{\left( 2 \right)}} \in {R^{10 \times 11}},{\theta ^{\left( 3 \right)}} \in {R^{1 \times 11}}$

这里写图片描述

2.2 梯度检验

神经网络BP的梯度计算相对复杂，可通过梯度检查的方法来避免梯度计算上出现的小错误，用于确认反向梯度计算是否正确。该方法仅用于测试，系统正式使用时应关闭。

2.2.1 梯度的数值计算

梯度检验

$\frac{d}{{d\theta }}J\left( \theta \right) \approx \frac{{J\left( {\theta + \varepsilon } \right) - J\left( {\theta - \varepsilon } \right)}}{{2\varepsilon }},\varepsilon = {10^{ - 4}}.$

2.2.2 向量 $θ$

当 $\theta \in {R^n}$ ，即 $\theta = \left[ {{\theta _1}, \cdots ,{\theta _n}} \right]$

\partial \partial θ i J (θ) \approx J ( θ 1 , \dots , θ i + ε , \dots , θ n ) - J ( θ 1 , \dots , θ i - ε , \dots , θ n ) 2 ε

$\frac{\partial }{{\partial {\theta _i}}}J\left( \theta \right) \approx \frac{{J\left( {{\theta _1}, \cdots ,{\theta _i} + \varepsilon , \cdots ,{\theta _n}} \right) - J\left( {{\theta _1}, \cdots ,{\theta _i} - \varepsilon , \cdots ,{\theta _n}} \right)}}{{2\varepsilon }}$

这种数值偏微分的近似计算方法，计算量很大，不适用于神经网络中的梯度计算。它的代码表达方式为

thetaPlus(i) = theta(i) + EPSILON;
thetaPlus(i) = theta(i) - EPSILON;
gradApprox(i) = (J(thetaPlus) – J(thetaPlus)) / (2*EPSILON);

检查 $gradApprox ≈ DVec$ ，即对比数值梯度与偏导梯度，当偏导梯度近似数值梯度时，则可认为梯度的反向传递计算正确。

该方法可以作梯度验证（Gradient checking）。

2.3 随机初始化

$θ$ 参数都初始化为 0 或者同一数，可能不利于参数学习（即求解 $θ$ ），这样的问题可以通过破坏对称性（Symmetry Breaking）来改善。
随机初始化是破坏对称性的一种方法，即初始化 $\theta _{ij}^{\left( l \right)}$ 为 $\left[ { - \varepsilon ,\varepsilon } \right]$ 的任意值，其代码表达方式为

Theta1 = rand(10,11) * (2*INIT_EPSILON) – INIT_EPSILON;
Theta2 = rand(1,11) * (2*INIT_EPSILON) – INIT_EPSILON;

2.4 总体回顾

2.4.1 训练一个神经网络

3层神经网络

输入单元： $x^{(i)}$ ，特征向量
隐藏单元：层数与单元个数
输出单元： $y$ ，类别

例如 $y \in \left\{ {{\rm{1}},{\rm{2}},{\rm{3}}, \cdots ,n} \right\}$

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 100 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ n \times 1 o r ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 010 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ n \times 1 o r \dots

$y = {\left[ {\begin{array}{*{20}{c}} 1\\ 0\\ 0\\ \vdots \\ 0 \end{array}} \right]_{n \times 1}}or{\left[ {\begin{array}{*{20}{c}} 0\\ 1\\ 0\\ \vdots \\ 0 \end{array}} \right]_{n \times 1}}or \ldots$

算法的训练步骤：

随机初始化 $θ$
前向传播求解 $h_θ(x^{(i)})$
计算代价函数 $J(θ)$
反向传播计算梯度 $\frac{\partial }{{\partial \theta _{jk}^{\left( l \right)}}}J\left( \theta \right)$
梯度检查 $\frac{\partial }{{\partial \theta _{jk}^{\left( l \right)}}}J\left( \theta \right)$ ，采用数值计算的方法来检验（检验后，舍弃该步骤）；
采用梯度下降法或高级的优化算法（基于反向神经网络求解梯度）
计算 ${\min _\theta }J\left( \theta \right)$
备注： $J(θ)$ 会是一个非凸函数，但局部极小值对训练结果的影响并不是很大。