Coursera机器学习(Andrew Ng)笔记：神经网络

最新推荐文章于 2018-03-01 00:00:00 发布

wisdom610

最新推荐文章于 2018-03-01 00:00:00 发布

阅读量630

点赞数

分类专栏：机器学习文章标签：神经网络反相传播算法机器学习

本文链接：https://blog.csdn.net/xuanwozhe/article/details/71514762

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

神经网络Neural Networks

机器学习初学者，原本是写来自己看的，写的比较随意。难免有错误，还请大家批评指正！对其中不清楚的地方可以留言，我会及时更正修改

神经网络模型的输入是特征 $(x_1, x_2, \cdots,x_n)$ ，输出是我们的假设函数，在我们的模型中， $x_0$ 总是等于1，被称作偏置单元。这里仍旧使用逻辑函数 $\dfrac{1}{1+e^{-\theta^Tx}}$ 进行分类，在神经网络中，它常被称作激励函数（sigmoid(logistic) activation function），参数 $\theta$ 常被称作权重weight。
直观的，一个简单的神经网络模型可以表示为

⎡ ⎣ ⎢ x 0 x 1 x 2 ⎤ ⎦ ⎥ \to [] \to h θ (x)

$\left[ \begin{matrix}x_0\\x_1\\x_2\end{matrix} \right]\rightarrow[\quad]\rightarrow h_\theta(x)$
第一层通常称作输入层，最后一层称作输出层，给出了假设函数输出的结果。中间层直接被称作隐藏层，称作驱动单元。定义：

a(j)i= $a_i^{(j)}=$ 第j层的第i个驱动单元

Θ(j)= $\Theta^{(j)}=$ 控制第j层到第j+1层映射的权重矩阵

模型表示1

如果中间层只有一层，神经网络模型可以表示为：

⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 x 2 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ \to ⎡ ⎣ ⎢ ⎢ ⎢ a (2) 1 a (2) 2 a (2) 3 ⎤ ⎦ ⎥ ⎥ ⎥ \to h θ (x)

$\left[ \begin{matrix}x_0\\x_1\\x_2\\x_3\end{matrix} \right]\rightarrow\left[ \begin{matrix} a_1^{(2)} \\ a_2^{(2)} \\a_3^{(2)}\end{matrix}\right]\rightarrow h_\theta(x)$
每个驱动单元的值通过以下方式获得：

a (2) 1 = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3)

$a_1^{(2)}=g(\Theta_{10}^{(1)}x_0 + \Theta_{11}^{(1)}x_1 + \Theta_{12}^{(1)}x_2 + \Theta_{13}^{(1)}x_3)$

a (2) 2 = g (Θ (1) 20 x 0 + Θ (1) 21 x 1 + Θ (1) 22 x 2 + Θ (1) 23 x 3)

$a_2^{(2)}=g(\Theta_{20}^{(1)}x_0 + \Theta_{21}^{(1)}x_1 + \Theta_{22}^{(1)}x_2 + \Theta_{23}^{(1)}x_3)$

a (2) 3 = g (Θ (1) 30 x 0 + Θ (1) 31 x 1 + Θ (1) 32 x 2 + Θ (1) 33 x 3)

$a_3^{(2)}=g(\Theta_{30}^{(1)}x_0 + \Theta_{31}^{(1)}x_1 + \Theta_{32}^{(1)}x_2 + \Theta_{33}^{(1)}x_3)$

h Θ (x) = a (3) 1 = g (Θ (2) 10 a (2) 0 + Θ (2) 11 a (2) 1 + Θ (2) 12 a (2) 2 + Θ (2) 13 a (2) 3)

$h_\Theta(x)=a_1^{(3)}=g(\Theta_{10}^{(2)}a_0^{(2)} + \Theta_{11}^{(2)}a_1^{(2)} + \Theta_{12}^{(2)}a_2^{(2)} + \Theta_{13}^{(2)}a_3^{(2)})$
向量化之后可是表示成（当然，还需要增加偏置单元）

a (2) = g (Θ (1) X)

$a^{(2)} = g(\Theta^{(1)}X)$

h Θ (x) = g (Θ (2) a (2))

$h_\Theta(x) = g(\Theta^{(2)} a^{(2)})$
在神经网络中，每层都被分配一个权重矩阵

Θ(j) $\Theta^{(j)}$ ，假设第

j $j$ 层有

sj $s_j$ 个单元，则

Θ(j) $\Theta^{(j)}$ 的维度为

sj+1×(sj+1) $s_{j+1}\times(s_j+1)$

模型表示2

我们定义新的变量 $z_k^{(j)}$ 作为逻辑回归函数的参数，则前面的例子可是表示为

a (2) 1 = g (z (2) 1)

$a_1^{(2)} = g(z_1^{(2)})$

a (2) 2 = g (z (2) 2)

$a_2^{(2)} = g(z_2^{(2)})$

a (2) 3 = g (z (2) 3)

$a_3^{(2)} = g(z_3^{(2)})$
换句话说，对第

j=2 $j=2$ 层的第

k $k$ 个节点，变量

z $z$ 表示为：

z (2) k = Θ (1) k, 0 x 0 + Θ (1) k, 1 x 1 + \dots + Θ (1) k, n x n

$z_k^{(2)} = \Theta_{k,0}^{(1)}x_0 + \Theta_{k,1}^{(1)}x_1 + \cdots + \Theta_{k,n}^{(1)}x_n$
设

x=a(1) $x = a^{(1)}$ ，我们可以重写等式为：

z (j) = Θ (j - 1) a (j - 1)

$z^{(j)} = \Theta^{(j-1)}a^{(j-1)}$

Θ(j−1) $\Theta^{(j-1)}$ 的维度为

sj∗(n+1) $s_j*(n+1)$ ，

sj $s_j$ 为驱动节点的个数。此时，我们可以得到下一层驱动节点的值

a (j) = g (z (j))

$a^{(j)} = g(z^{(j)})$
在

a(j) $a^{(j)}$ 中添加偏置单元，其值为1，要得到最后假设函数，必须先计算另一个

z(j) $z^{(j)}$

z (j + 1) = Θ (j) a (j)

$z^{(j+1)} = \Theta^{(j)}a^{(j)}$
最后一个矩阵

Θ(j) $\Theta^{(j)}$ 是一个行向量，我们的假设函数输出结果是一个实数，所以有最终结果

h Θ (x) = a (j + 1) = g (z (j + 1))

$h_\Theta(x) = a^{(j+1)} = g(z^{(j+1)})$

多类别分类

为了实现多类别分类，我们让假设函数返回一个向量，其中只有一个元素为1，表示其类别，如
这里写图片描述
同样的，我们定义输出类集合 $y$

代价函数

首先定义一些要使用的变量：
$L=$ 神经网络的总共层数
$s_l=$ 第 $l$ 层驱动单元的个数
$K=$ 输出单元或类别的个数
$h_\Theta(x)_k=$ 假设函数的第k个输出
和逻辑回归的代价函数类似，神经网络的代价函数表示为：

J (Θ) = - 1 m \sum i = 1 m \sum k = 1 K [y (i) k l o g ((h Θ (x (i))) k) + (1 - y (i) k) l o g (1 - (h Θ (x (i))) k)] + λ 2 m \sum l = 1 L - 1 \sum i = 1 s l \sum j = 1 s l + 1 (Θ (l) j, i) 2

$J(\Theta) = -\frac{1}{m}\sum_{i=1}^{m}\sum_{k=1}^{K}\left[ y_k^{(i)}log((h_\Theta(x^{(i)}))_k) + (1-y_k^{(i)})log(1-(h_\Theta(x^{(i)}))_k)\right]+\frac{\lambda}{2m} \sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(\Theta_{j,i}^{(l)})^2$

反向传播算法

注：反向传播算法其实就是梯度下降与链式求导法的组合
和梯度下降类似，我们的目标是计算 $min_\Theta J(\Theta)$ ，我们依旧关注 $J(\Theta)$ 的偏导数 $\dfrac{\partial}{\partial\Theta_{i,j}^{l}}J(\Theta)$
在反向传播算法中，我们计算每个节点的误差 $\delta_j^{l}$ ，表示第 $l$ 层第 $j$ 个节点的偏差error。对于最后一层，偏差 $\delta^{(L)} = a^{(L)}-y$ ，实际就是模型的输出与实际之间的差值。
得到其他层的 $\delta$ ，可用下面的方程式从右向左进行演算

δ (l) = ((Θ (l)) T δ (l + 1)) . * g' (z (l))

$\delta^{(l)} = ((\Theta^{(l)})^T\delta^{(l+1)}).*g'(z^{(l)})$
其中的偏导数项也可以写作

g′(z(l))=a(l).∗(1−a(l)) $g'(z^{(l)}) = a^{(l)}.*(1-a^{(l)})$ 。因为

g′(z)=g(z)(1−g(z)) $g'(z) = g(z)(1-g(z))$ 。
则最终

J(Θ) $J(\Theta)$ 的偏导数表示为：（其中的证明和计算十分复杂，可以不考虑）

\partial \partial Θ l i , j J (Θ) = 1 m \sum t = 1 m a (t) (l) j δ (t) (l + 1) i

$\dfrac{\partial}{\partial\Theta_{i,j}^{l}}J(\Theta) = \frac{1}{m}\sum_{t=1}^{m}a_j^{(t)(l)}\delta_i^{(t)(l+1)}$
注：这里忽略了正则化， 直观的理解公式就是第l层第i个结点的残差等于第l+1层与其连接的所有结点的权值和残差的加权和再乘以该点对z的导数值。
至此，反相传播算法可以描述为
实际上，上述算法中的

D(l)i,j $D_{i,j}^{(l)}$ 就是我们要找的

∂∂Θli,jJ(Θ) $\dfrac{\partial}{\partial\Theta_{i,j}^{l}}J(\Theta)$ ，即

D (l) i, j = \partial J ( Θ ) \partial Θ l i , j

$D_{i,j}^{(l)} = \dfrac{\partial J(\Theta)}{\partial\Theta_{i,j}^{l}}$
直观上，

δ(l)j $\delta_j^{(l)}$ 就是

a(l)j $a_j^{(l)}$ 的偏差，可以描述成代价函数的偏导数：

δ(l)j=∂∂z(l)jcost(t) $\delta_j^{(l)} = \dfrac{\partial}{\partial z_{j}^{(l)}}cost(t)$

参数展开

在神经网络中，我们需要计算很多参数，如
$\Theta_1, \Theta_2, \Theta_3 \cdots$
$D_1,D_2,D_3 \cdots$
为了使用”fminnuc”这样的优化函数，这里将参数展开成列向量的形式进行传参

thetaVector = [Theta1(:); Theta2(:); Theta3(:) ]
deltaVector = [D1(:); D2(:); D3(:) ]

在函数内部，再将其还原成正确的形式

Theta1 = reshape(thetaVector(1:101), 10, 11)
Theta2 = reshape(thetaVector(102:220), 10, 11)
Theta3 = reshape(thetaVector(221:231), 1, 11)

梯度检查Gradient Checking

进行梯度检查可以保证我们的反向传播算法能够像按照我们的意愿进行工作，近似的我们可以将代价函数表示近似为：
$\dfrac{\partial}{\partial \Theta} J(\Theta) \approx \dfrac{J(\Theta+\epsilon)-J(\Theta-\epsilon)}{2\epsilon}$
对于有多个 $\Theta$ 矩阵，代价函数的倒数可以表示为：
$\dfrac{\partial}{\partial \Theta_j} J(\Theta) \approx \dfrac{J(\Theta_1,...,\Theta_j+\epsilon,...,\Theta_n)-J(\Theta_1,...,\Theta_j-\epsilon,...,\Theta_n)}{2\epsilon}$
通常情况下， $\epsilon=10^{-4}$ ，对应的matlab代码如下：

epsilon = 1e-4;
for i = 1:n,
    thetaPlus = theta;
    thetaPlus(i) += epsilon;
    thetaMinus = theta;
    thetaMinus(i) -= epsilon;
    gradApprox(i) = (J(thetaPlus) - J(thetaMinus))/(2*epsilon)
end;

最后，我们检查 $gradApprox\approx deltaVector$

随机初始化Random Initialization

如果我们将所有的权重初始化为0，当我们进行反向传播计算时，所有的节点都会重复更新到同样的值，因此，对权重进行随记初始化，将其值控制在 $[-\epsilon, \epsilon]$ 范围内：

%If the dimensions of Theta1 is 10x11, Theta2 is 10x11 and Theta3 is 1x11.
Theta1 = rand(10,11) * (2 * INIT_EPSILON) - INIT_EPSILON;
Theta2 = rand(10,11) * (2 * INIT_EPSILON) - INIT_EPSILON;
Theta3 = rand(1,11) * (2 * INIT_EPSILON) - INIT_EPSILON;

总结

默认情况下，如果隐藏层超过一层，则每个隐藏层的单元个数应相同
-训练神经网络-
1. 随机初始化权重
2. 执行正向传播得到 $h_\theta(x^{(i)})$
3. 计算代价函数
4. 执行反向传播计算偏导
5. 使用梯度检查确定偏导计算无误，然后关闭梯度检查
6. 使用梯度下降方法或内置优化函数计算权重

执行正项传播算法过程如下：

   for i = 1:m,
   Perform forward propagation and backpropagation using example (x(i),y(i))
   (Get activations a(l) and delta terms d(l) for l = 2,...,L