机器学习第5周

最新推荐文章于 2023-06-25 18:41:31 发布

国易

最新推荐文章于 2023-06-25 18:41:31 发布

阅读量256

点赞数

分类专栏：王恩达机器学习入门

本文链接：https://blog.csdn.net/wycgi/article/details/84258284

版权

王恩达机器学习入门专栏收录该内容

14 篇文章 1 订阅

订阅专栏

神经网络

代价函数
- 定义变量
- 表示式子
反向传播（重点）
- 代价函数的偏导数
- - 原理剖析
实操经验

代价函数

定义变量

L是神经网络的总层数
$s_l$ 为第 $l$ 层的单元数量（不包括偏置单元）
K为输出层的单元数量/分类类型数量

表示式子

神经网络的代价函数是正则化逻辑回归的代价函数的概括：
$J(\theta) = -\frac{1}{m} \sum_{i=1}^m \sum_{k=1}^K[y^{(i)}_k\log(h_\theta(x^{(i)})_k） + (1-y^{(i)}_k)\log(1-h_\theta(x^{(i)})_k) ] + \frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_{l+1}}\sum_{j=1}^{s_l}(\Theta_{i,j}^{(l)})^2$
其中， $h_\theta(x^{(i)})_k$ 表示第 $k$ 种类型的分类结果（概率），与样本中 $y^{(i)}_k$ 表示的第 $k$ 种类型的实际结果相对应。

反向传播（重点）

“反向传播”是用于最小化我们的代价函数的神经网络术语，就像我们在逻辑和线性回归中使用梯度下降一样。我们的目标是计算 $min_\Theta J(\Theta)$ ，也即计算得到能使代价函数最小的模型参数。

代价函数的偏导数

为了求 $\frac{\partial}{\partial\Theta^{(l)}_{i,j}}J(\Theta)$ ，执行以下步骤：

获取训练集 $\{ (x^{(1)},y{(1)}) \dots (x^{(m)},y{(m)})\}$ ，并设 $\Delta^{(l)}_{i,j}:=0$ （也即得到一个元素均为零的矩阵）
训练样本 $1\quad to\quad m$ ，依次执行下列步骤：
2.1 设 $a^{(1)}:=x^{(t)}$
2.2 通过向前传播算法计算 $a^{(l)}\quad (for\quad l=2,3,\dots,L)$
2.3 通过样本中的实际分类结果 $y^{(t)}$ ，计算 $\delta(L)=a^{(L)}-y^{(t)}$ ，其中， $a^{(L)}$ 也即输出层的输出结果（分类结果向量），该式实际为实际分类结果与向前传播计算得到的 $a^{(L)}$ 的差值。
2.4 计算 $\delta^{(L-1)},\delta^{(L-1)},\dots,\delta^{(2)}$ ， $\delta^{(1)}$ 表示第一层输入层的误差：（第一层为训练样本中的输入特征，肯定没有误差，所以不用计算）
$\delta^{(l)} = ((\Theta^{(l)})^T\delta^{(l+1)}).*a^{(l)}.*(1-a^{(l)})$
2.5 $\Delta^{(l)}_{i,j}:=\Delta^{(l)}_{i,j}+a_j^{(l)}\delta_i^{(l+1)}$ ，或者用向量法： $\Delta^{(l)}:=\Delta^{(l)}+\delta_i^{(l+1)}(a_j^{(l)})^T$
因此，上述步骤2.1-2.5可以不断更新矩阵 $\Delta$ 。
最终得到偏导数 $\frac{\partial}{\partial\Theta^{(l)}_{i,j}}J(\Theta)=D_{i,j}^{(l)}$ ：
$\begin{cases} D_{i,j}^{(l)}=\frac{1}{m}\Delta^{(l)}_{i,j} &\text{if } j = 0 \\ D_{i,j}^{(l)}=\frac{1}{m}(\Delta^{(l)}_{i,j}+\lambda\Theta_{i,j}^{(l)}) &\text{if } j \ne 0 \end{cases}$

原理剖析

关于 $\delta^{(l)}_j$ 的计算。
$J(\theta) = -\frac{1}{m} \sum_{t=1}^m \sum_{k=1}^K[y^{(t)}_k\log(h_\theta(x^{(t)})_k） + (1-y^{(t)}_k)\log(1-h_\theta(x^{(t)})_k) ] + \frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_{l+1}}\sum_{j=1}^{s_l}(\Theta_{i,j}^{(l)})^2$
令K=1，并忽略惩罚项，有：
$cost(t)=y^{(t)}_k\log(h_\theta(x^{(t)})_k） + (1-y^{(t)}_k)\log(1-h_\theta(x^{(t)})_k)$
则， $\delta^{(l)}_j=\frac{\partial}{\partial z^{(l)}_j}cost(t)$ 。

在这里插入图片描述
从上图可知，反向传播计算时，有 $\delta^{(2)}_2=\Theta_{1,2}^{(2)}*\delta^{(3)}_1+\Theta_{2,2}^{(2)}*\delta^{(3)}_2$ 和 $\delta^{(2)}_3=\Theta_{1,2}^{(2)}*\delta^{(4)}_1$

实操经验

多矩阵

在神经网络算法中，可能出现如下矩阵：
$\Theta^{(1)},\Theta^{(2)},\Theta^{(3)},\dots \\ D^{(1)},D^{(2)},D^{(3)},\dots$
但是，如果我们才使用高级的优化算法，比如：fminunc（），那就需要把矩阵摊开成一个向量：

thetaVector = [Theta1(:); Theta2(:); Theta3(:)]; \\
deltaVector = [D1(:); D2(:); D3(:)];

如果矩阵Theta1的尺寸为1011，矩阵Theta2的尺寸为1011，矩阵Theta3的尺寸为1*11，我们可以通过以下步骤重获矩阵：

Theta1 = reshape(thetaVector(1:110),10,11)
Theta2 = reshape(thetaVector(111:220),10,11)
Theta3 = reshape(thetaVector(221:231),1,11)

总结：

初始化模型参数： $\Theta^{(1)},\Theta^{(2)},\Theta^{(3)},\dots$
将模型参数矩阵摊开为initialTheta，传到高级优化算法fminunc(@costFunction, initialTheta, options)
在function [jval,gradientVec] costFunction（thetaVec）中，先从thetaVec获取模型参数，然后计算 $D^{(1)},D^{(2)},D^{(3)},\dots$ ，以及 $J(\Theta)$ ，最后展开 $D^{(1)},D^{(2)},D^{(3)},\dots$ 得到gradientVec。

梯度检查

为了检查反向传播算法工作符合预期，将代价函数的偏导数近似于：
$\frac{\alpha}{\alpha\Theta} J(\Theta) \approx \frac{J(\Theta+\epsilon)-J(\Theta-\epsilon)}{2\epsilon}$
对于多个模型参数矩阵，我们对于 $\Theta_j$ 的偏导数近似有：
$\frac{\alpha}{\alpha\Theta_j} J(\Theta) \approx \frac{J(\Theta_1,\dots,\Theta+\epsilon,\dots,\Theta_n)-J(\Theta_1,\dots,\Theta-\epsilon,\dots,\Theta_n)}{2\epsilon}$
其中， $\epsilon$ 的值取得较小，例如 $10^{-4}$ ，但是太小可能会遇到数值问题，也即电脑可能无法计算这么小的数值，或者计算时取小数点后四位而忽略了四位后的位数，造成计算错误。

在octave中，代码如下：

epsilon = 1e-4;
for i = 1:n,
  thetaPlus = theta;
  thetaPlus(i) += epsilon;
  thetaMinus = theta;
  thetaMinus(i) -= epsilon;
  gradApprox(i) = (J(thetaPlus) - J(thetaMinus))/(2*epsilon)
end;

我们在计算得到gradApprox后，就可以将其与deltaVector（ $D^{(1)},D^{(2)},D^{(3)},\dots$ ）比较，检查两者之间是否近似。

PS：一旦验证了反向传播算法是正确的，则无需在下次迭代时继续计算gradApprox，因为gradApprox的计算效率低。

随机初始化

将神经网络的权重（模型参数）全都初始为零（或者满足对称性，比如 $\Theta^{(1)}$ 全初始为零， $\Theta^{(2)}$ 全初始为1）的话，会使反向传播时，所有节点将重复更新为相同的值。因此，我们可以使用以下方法随机初始化权重：
在 $[-\epsilon,\epsilon]$ 的范围内随机初始化权重，具体为：

If the dimensions of Theta1 is 10x11, Theta2 is 10x11 and Theta3 is 1x11.

Theta1 = rand(10,11) * (2 * INIT_EPSILON) - INIT_EPSILON;
Theta2 = rand(10,11) * (2 * INIT_EPSILON) - INIT_EPSILON;
Theta3 = rand(1,11) * (2 * INIT_EPSILON) - INIT_EPSILON;

其中，rand函数的作用是在0到1之间进行初始化。
PS：上式中的 $\epsilon$ 与梯度检查中的 $\epsilon$ 无关。

总结

选择网络架构；选择神经网络的布局(每层有多少隐藏单元，以及总共需要有多少层)

输入层的单元数量等于输入特征的种数 $(x_0，x_1，\dots)$
输出层的单元数量等于输出特征的种数（分类的类数）
隐藏层的单元数量越多越好(平衡计算成本)
如果有多个隐藏层，建议每个隐藏层的单元数量相等

训练神经网络
2.1 随机初始化权重
2.2 向前传播计算所有样本 $x^{(i)}$ 的输出 $h_\theta(x^{(i)})$ 。
2.3 计算代价函数
2.4 通过反向传播计算代价函数的偏导数
2.5 使用梯度检查确认反向传播是否有效工作，然后去掉梯度检查步骤
2.6 使用梯度下降或者更高级的优化算法求得使代价函数最小化的权重(模型参数)

在向前和向后传播时，我们分别对个训练样本进行操作：

for i = 1:m,
   Perform forward propagation and backpropagation using example (x(i),y(i))
   (Get activations a(l) and delta terms d(l) for l = 2,...,L

国易

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习第5周

神经网络代价函数定义变量表示式子反向传播（重点）代价函数的偏导数原理剖析代价函数定义变量L是神经网络的总层数sls_lsl为第lll层的单元数量（不包括偏置单元）K为输出层的单元数量/分类类型数量表示式子神经网络的代价函数是正则化逻辑回归的代价函数的概括：J(θ)=−1m∑i=1m∑k=1K[yk(i)log⁡(hθ(x(i))k）+(1−yk(i))log⁡(1−hθ(x(...
复制链接

扫一扫

专栏目录