机器学习 - 反向传播算法 (BP)

最新推荐文章于 2024-04-20 23:11:03 发布

Xxmoment

最新推荐文章于 2024-04-20 23:11:03 发布

阅读量715

点赞数 1

分类专栏：机器学习文章标签：算法神经网络机器学习

本文链接：https://blog.csdn.net/weixin_45091300/article/details/119949519

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

1. Cost Function

首先定义一些需要使用的变量：

$L$ = total number of layers in the network；
$s_l$ = number of units (not counting bias unit) in layer $l$
$K$ = number of output units/classes

将神经网络的分类定义为两种情况：二类分类和多类分类，

二类分类： $S_L=0, y=0\, or\, 1$ 表示哪一类；

$K$ 类分类： $S_L=k, y_i = 1$ 表示分到第 $i$ 类； $(k > 2)$

在这里插入图片描述

神经网络代价函数 $J(\theta)$ 将是用于逻辑回归的成本函数的推广。
逻辑回归问题中代价函数为：

$J\left(\theta \right)=-\frac{1}{m}\left[\sum_{i=1}^{m}{y}^{(i)}\log{h_\theta({x}^{(i)})}+\left(1-{y}^{(i)}\right)log\left(1-h_\theta\left({x}^{(i)}\right)\right)\right]+\frac{\lambda}{2m}\sum_{j=1}^{n}{\theta_j}^{2}$

在Logistic Regression中，只有一个输出变量，也只有一个因变量 $y$ ，但是在Neural Network中，输出层可以有多个变量， $h_\theta(x)$ 是一个 $K * 1$ 的列向量，故代价函数会比逻辑回归更多元，为： $\newcommand{\subk}[1]{ #1_k }$
$h_\theta\left(x\right)\in \mathbb{R}^{K}$ ${\left({h_\theta}\left(x\right)\right)}_{i}={i}^{th} \text{output}$ $J(\Theta) = -\frac{1}{m} \left[ \sum_{i=1}^{m} \sum_{k=1}^{k} {y_k}^{(i)} \log {(h_\Theta(x^{(i)}))} + \left( 1 - y_k^{(i)} \right) \log \left( 1- {\left( h_\Theta \left( x^{(i)} \right) \right)} \right) \right] + \frac{\lambda}{2m} \sum_{l=1}^{L-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} \left( \Theta_{ji}^{(l)} \right)^2$

添加一些嵌套求和来说明多个输出节点。在等式的第一部分，在方括号之前，有一个额外的嵌套求和，它循环遍历输出节点的数量。

在正则化部分，在方括号之后，必须考虑多个 $\theta$ 矩阵。当前 $\theta$ 矩阵中的列数等于当前层中的节点数（包括bias偏置单元）。当前的 $\theta$ 矩阵中的行数等于下一层的节点数（不包括bias偏置单元）。与之前的逻辑回归一样，对每一项进行平方。

小结:
double sum 只是将输出层中每个单元格计算的逻辑回归成本相加;
tribal sum 只是将整个网络中所有单个 Θ 的平方相加；其中 j 可看做Θ的列，i 为Θ的行；
三重总和中的 i 不是指训练示例 i。

后续修改: 上述改为"其中 i 可看做Θ的列，j 为Θ的行"

2. BP算法 (Backward Propagation)

“反向传播”是神经网络术语，用于最小化成本函数，就像在逻辑回归和线性回归中使用梯度下降所做的一样。目标是计算： $minJ(\Theta)$ .

也就是说，希望使用 $\theta$ 中的一组最佳参数来最小化的成本函数 $J$ 。为了计算代价函数的偏导数 $\frac{\partial}{\partial\Theta^{(l)}_{ij}}J\left(\Theta\right)$ ，需要采用一种反向传播算法，也就是首先计算最后一层的误差，然后再一层一层反向求出各层的误差，直到倒数第二层。注, 第一层是输入层, 不计算误差.

在看BP前，先看FP，也就是在计算神经网络预测结果时采用了一种正向传播方法，从第一层开始正向一层一层进行计算，直到最后一层的 $h_{\theta}\left(x\right)$ 。

前向传播算法(Forward Propagation)：

在这里插入图片描述

反向传播算法(Back Propagation Algorithm):

在这里插入图片描述

下面的公式推导之前可先查看：
<https://blog.csdn.net/weixin_45091300/article/details/119956352?spm=1001.2014.3001.5501>

从最后一层的误差开始计算，误差是激活单元的预测（ ${a^{(4)}}$ ）与实际值（ $y^k$ ）之间的误差，（ $k = 1 : k$ ）。
用 $\delta$ 来表示误差，则： $\delta^{(4)}=a^{(4)}-y$
利用这个误差值来计算前一层的误差：
$\delta^{(3)}=\left({\Theta^{(3)}}\right)^{T}\delta^{(4)}\ast s'\left(z^{(3)}\right)$
其中 $s'(z^{(3)})$ 是 $s i g m o i d$ 函数的导数， $s'(z^{(3)})=a^{(3)}\ast(1-a^{(3)})$ 。而 $(θ^{(3)})^{T}\delta^{(4)}$ 则是权重导致的误差的和。下一步是继续计算第二层的误差：
$\delta^{(2)}=(\Theta^{(2)})^{T}\delta^{(3)}\ast s'(z^{(2)})$
因为第一层是输入变量，不存在误差。有了所有的误差的表达式后，便可以计算代价函数的偏导数了，假设 $λ = 0$ ，即不做任何正则化(Regularization)处理时有：
$\frac{\partial}{\partial\Theta_{ij}^{(l)}}J(\Theta)=a_{j}^{(l)} \delta_{i}^{l+1}$

其中上下标的含义:

l 代表目前所计算的是第几层;

j 代表目前计算层中的激活单元的下标，也将是下一层的第j个输入变量的下标;

i 代表下一层中误差单元的下标，是受到权重矩阵中第 i 行影响的下一层中的误差单元的下标。

3. BP 理解

前向传播算法：

圈出的部分是偏置单元(bias unit), 在计算时要时刻注意. 即: $x_0=a^{(2)}_0=a^{(3)}_0=1$
在这里插入图片描述

FP是按照设定的参数 $\theta^{(l)}$ 与特征值 $x^{(i)}$ 逐层进行计算, 即:
$\begin{aligned} &a_{1}^{(2)}=s(\theta _{10}^{(1)}{{x}_{0}}+\theta _{11}^{(1)}{{x}_{1}}+\theta _{12}^{(1)}{{x}_{2}}) \\ &a_{2}^{(2)}=s(\theta _{20}^{(1)}{{x}_{0}}+\theta _{21}^{(1)}{{x}_{1}}+\theta _{22}^{(1)}{{x}_{2}}) \\ \end{aligned}$ $\begin{aligned} &a_{1}^{(3)}=s(\theta _{10}^{(2)}{{a}^{(2)}_{0}}+\theta _{11}^{(2)}{{a}^{(2)}_{1}}+\theta _{12}^{(2)}{{a}^{(2)}_{2}}) \\ &a_{2}^{(3)}=s(\theta _{20}^{(2)}{{a}^{(2)}_{0}}+\theta _{21}^{(2)}{{a}^{(2)}_{1}}+\theta _{22}^{(2)}{{a}^{(2)}_{2}}) \\ \end{aligned}$ $a^{(4)}={{h}_{\theta }}(x)=s(\theta _{10}^{(3)}a_{0}^{(3)}+\theta _{11}^{(3)}a_{1}^{(3)}+\theta _{12}^{(3)}a_{2}^{(3)})$
反向传播算法做的是：

在这里插入图片描述

Xxmoment

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习 - 反向传播算法 (BP)

1、sigmoid函数1.1 从指数函数到sigmoidsigmoid函数，也就是s型曲线函数，如下：函数： $ f(z) = 1\frac{1}{1+e^(-2)} $上面是我们常见的形式，虽然知道这样的形式，也知道计算流程，不够感觉并不太直观，下面来分析一下。1.2 对数函数与sigmoid2、sigmoid函数求导3、神经网络损失函数求导...
复制链接

扫一扫