《吴恩达机器学习》笔记——10 神经网络参数的反向传播算法

最新推荐文章于 2022-10-29 11:55:24 发布

ziuno

最新推荐文章于 2022-10-29 11:55:24 发布

阅读量125

点赞数

分类专栏：笔记机器学习吴恩达机器学习

本文链接：https://blog.csdn.net/ziuno/article/details/103086992

版权

笔记同时被 3 个专栏收录

34 篇文章 0 订阅

订阅专栏

机器学习

12 篇文章 0 订阅

订阅专栏

吴恩达机器学习

8 篇文章 0 订阅

订阅专栏

《吴恩达机器学习》笔记——10 神经网络参数的反向传播算法

1 代价函数

参数	表达
训练集	$\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\dots,(x^{(m)},y^{(m)})\}$
$L$	神经网络结构的总层数
$s_l$	第 $l$ 层的单元数（不包括第 $l$ 层的偏差单元）

分类	二元分类	多元分类（ $K$ 类）
$y$	$y=0\;or\;1$	$y\in\mathbb{R}^K$ $例如\left[\begin{matrix}1\\0\\0\\0\end{matrix}\right],\left[\begin{matrix}0\\1\\0\\0\end{matrix}\right],\left[\begin{matrix}0\\0\\1\\0\end{matrix}\right],\left[\begin{matrix}0\\0\\0\\1\end{matrix}\right]$
输出单元个数	1	$K(K\geqslant3)$

-	代价函数
逻辑回归	$J(\theta)=-\frac{1}{m}\left[\sum\limits^m_{i=1}y^{(i)}\log h_\theta(x^{(i)})+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))\right]\\+\frac{\lambda}{2m}\sum\limits^n_{j=1}\theta_j^2$
神经网络	$J(\Theta)=-\frac{1}{m}\left[\sum\limits^m_{i=1}\sum\limits^K_{k=1}y^{(i)}_k\log( h_\Theta(x^{(i)}))_k+(1-y^{(i)}_k)\log(1-(h_\Theta(x^{(i)}))_k)\right]\\+\frac{\lambda}{2m}\sum\limits^{L-1}_{l=1}\sum\limits^{s_l}_{i=1}\sum\limits^{s_{l+1}}_{j=1}(\Theta_{ji}^{(l)})^2$ $\left(h_\Theta(x)\in\mathbb{R}^K\quad(h_\Theta(x))_i：第i个输出\right)$

2 反向传播算法(Back Propagation Algorithm)

-	表达
$J(\Theta)$	$-\frac{1}{m}\left[\sum\limits^m_{i=1}\sum\limits^K_{k=1}y^{(i)}_k\log( h_\Theta(x^{(i)}))_k+(1-y^{(i)}_k)\log(1-(h_\Theta(x^{(i)}))_k)\right]\\+\frac{\lambda}{2m}\sum\limits^{L-1}_{l=1}\sum\limits^{s_l}_{i=1}\sum\limits^{s_{l+1}}_{j=1}(\Theta_{ji}^{(l)})^2$
目标	$\min\limits_\Theta J(\Theta)$
计算	$J(\Theta)$ $\frac{\partial}{\partial\Theta_{ij}^{(l)}}J(\Theta)$

-	反向传播（假设 $L = 4$ ）
概念	对于每一个结点，计算 $\delta^{(l)}_j$ ：第 $l$ 层的第 $j$ 个结点的误差
$\delta^{(4)}_j$	$a^{(4)}_j-y_j=(h_\Theta(x))_j-y_j$
$\delta^{(4)}$	$a^{(4)}-y$
$\delta^{(3)}$	$(\Theta^{(3)})^\mathrm{T}\delta^{(4)}.*g'(z^{(3)})$
$\delta^{(2)}$	$(\Theta^{(2)})^\mathrm{T}\delta^{(3)}.*g'(z^{(2 )})$
$g'(z^{(3)})$	$a^{(3)}.*(1-a^{(3)})$
$g'(z^{(2)})$	$a^{(2)}.*(1-a^{(2)})$
$\frac{\partial}{\partial\Theta^{(l)}_{ij}}J(\Theta)$	$a_j^{(l)}\delta_i^{(l+1)}$ （忽略 $\lambda$ 或者 $\lambda=0$ ）

-	反向传播算法
训练集	$\{(x^{(1)},y^{(1)}),\dots,(x^{(m)},y^{(m)})\}$
设 $\Delta_{ij}^{(l)}$	0（用于计算 $\frac{\partial}{\partial\Theta^{(l)}_{ij}}J(\Theta)$ ）
$for\;i=1:m$	设 $a^{(1)}=x^{(i)}$ 前向传播计算 $a^{(l)},l=2,3,\dots,L$ 计算 $\delta^{(L)}=a^{(L)}-y^{(i)}$ 计算 $\delta^{(L-1)},\delta^{(L-2)},\dots,\delta^{(2)}$ $\left(\Delta^{(l)}_{ij}:=\Delta^{(l)}_{ij}+a_j^{(l)}\delta_i^{(l+1)}\right)$ $\Delta^{(l)}:=\Delta^{(l)}+\delta^{(l+1)}(a^{(l)})^\mathrm{T}$
计算	$D^{(l)}_{ij}:=\left\{\begin{matrix}\frac{1}{m}\Delta^{(l)}_{ij}+\lambda\Theta_{ij}^{(l)}&若j\neq0\\\frac{1}{m}\Delta^{(l)}_{ij}&若j=0\end{matrix}\right.$
得到	$\frac{\partial}{\partial\Theta^{(l)}_{ij}}J(\Theta)=D^{(l)}_{ij}$

3 使用注意：参数展开[code]

4 梯度检测[code]

梯度数值估计	$\frac{d}{d\theta}J(\theta)\approx$
双侧偏分[code]	$\frac{J(\theta+\epsilon)-J(\theta-\epsilon)}{2\epsilon},\;\epsilon=10^{-4}$
单侧偏分	$\frac{J(\theta+\epsilon)-J(\theta-\epsilon)}{\epsilon},\;\epsilon=10^{-4}$

步骤	1. 通过反向传播计算DVec 2. 实现数值上的梯度检验来计算gradApprox 3. 确保DVec和gradApprox都能得出相似的值 4. 在使用反向传播进行学习时，关闭梯度检测
要点	在训练分类器的过程中关闭梯度检测

5 随机初始化

目的	解决对称权重问题（所有的权重都是一样的）
解决[code]	初始化每一个 $\Theta_{ij}^{(l)}为$ $[-\epsilon,\epsilon]$ 中的一个随机值

6 组合在一起

参数	训练神经网络
输入单元的个数	特征 $x^{(i)}$ 的维度
输出单元的个数	分类的数目
隐藏层单元的个数与隐藏层的数目	（默认合理）只使用单个隐藏层不止一个隐藏层时，每个隐藏层通常都应有相同的单元数
实现步骤	1. 随机初始化权重 2. 前向传播，计算每个 $x^{(i)}$ 的 $h_\Theta(x^{(i)})$ 3. 计算代价函数 $J(\Theta)$ 4. 反向传播，计算 $\frac{\partial}{\partial\Theta_{jk}^{(l)}}J(\Theta)$ 5. 梯度检测，比较反向传播得到的偏导和使用梯度检测得到的梯度（然后关闭梯度检测） 6. 利用反向传播，使用梯度下降或其他优化算法来最小化 $J(\Theta)$

P.S. Matlab

3

% 定义矩阵
Theta1 = ones(10,11);
Theta2 = 2*ones(10,11);
Theta3 = 3*ones(1,11);
% 矩阵展为向量
thetaVec = [Theta1(:); Theta2(:); Theta3(:)];
DVec = [D1(:); D2(:); D3(:)];
% 向量转换为矩阵
Theta1 = reshape(thetaVec(1:110),10,11);
Theta2 = reshape(thetaVec(111:220),10,11);
Theta3 = reshape(thetaVec(221:231),1,11);

% initialTheta->fminunc(@costFunction, initialTheta, options)
function [jVal, gradientVec] = costFunction(thetaVec)
	% 从thetaVec中获取theta1,theta2,theta3
	% 前向传播、反向传播，计算D1,D2,D3,J
	% 将D1,D2,D3转换为gradientVec

4

for i = 1:n,
	thetaPlus = theta;
	thetaPlus(i) = thetaPlus(i) + EPSILON;
	thetaMinus = theta;
	thetaMinus(i) = thetaMinus(i) - EPSILON;
	gradApprox(i) = (J(thetaPlus) - J(thetaMinus)) / (2*EPSILON);
end;
% 检验:gradApprox是否约等于DVec

% 双侧偏分
gradApprox = (J(theta + EPSILON) - J(theta - EPSILON)) / (2*EPSILON)

5

Theta1 = rand(10,11)*(2*INIT_EPSILON) - INIT_EPSILON;
Theta2 = rand(1,11)*(2*INIT_EPSILON) - INIT_EPSILON;

ziuno

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《吴恩达机器学习》笔记——10 神经网络参数的反向传播算法

《吴恩达机器学习》笔记——10 神经网络参数的反向传播算法1 代价函数参数表达训练集{(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))}\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\dots,(x^{(m)},y^{(m)})\}{(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))}...
复制链接

扫一扫