吴恩达机器学习（六）神经网络（前向传播）

最新推荐文章于 2024-03-18 16:10:15 发布

I can丶

最新推荐文章于 2024-03-18 16:10:15 发布

阅读量1.3k

点赞数 4

分类专栏：机器学习文章标签：机器学习神经网络前向传播隐藏层多分类

本文链接：https://blog.csdn.net/zhq9695/article/details/82838824

版权

机器学习专栏收录该内容

53 篇文章 29 订阅

订阅专栏

0. 前言

神经网络（Neural Network），是通过模拟生物大脑的突触神经传播电信号的一系列过程，来模拟生物思考，进而解决分类问题，通常，神经网络可以用来解决一些非线性的问题。

输入层（input layer）：输入
隐藏层（hidden layer）：对输入层作一系列“处理”，“处理”通常由系数的运算和激活函数组成，隐藏层可以有多层
输出层（output layer）：接受隐藏层的输出，再进行一系列处理，最终输出

给出符号的初始定义：

$\theta^{(j)}$ --- 第层到第层之间的权重矩阵
$z_{i}^{(j)}$ --- 为第层的第个激活单元所计算的值
$a_{i}^{(j)}$ --- 第层的第个激活单元

1. 神经网络模型

简单神经网络模型如下所示（图源：吴恩达机器学习，更改后）。Layer1为输入层，Layer2为隐藏层，Layer3为输出层。

隐藏层中的每一个激活单元，都使用了来自输入层的每一个单元的数值；输出层中的每一个激活单元，都使用了来自隐藏层中的每一个单元的数值。

注： $x_{0}\ a_{0}^{(2)}$ 是偏置单元（bias unit），为一常数，不接收前一层的输入。

这里 $x_{i}$ 可以看作是 $a_{i}^{(1)}$ ，为第一层（输入层）的激活单元。

2. 前向传播（forward propagation）

对于隐藏层和输出层的激活单元的计算，我们可给出如下计算公式，其中 g(z) 仍然表示 sigmoid 函数：

$\large \begin{align*} a_{1}^{(2)} &= g(z_{1}^{(2)})= g(\theta_{10}^{(1)}x_{0}+\theta_{11}^{(1)}x_{1}+\theta_{12}^{(1)}x_{2}+\theta_{13}^{(1)}x_{3})\\ a_{2}^{(2)} &= g(z_{2}^{(2)})= g(\theta_{20}^{(1)}x_{0}+\theta_{21}^{(1)}x_{1}+\theta_{22}^{(1)}x_{2}+\theta_{23}^{(1)}x_{3})\\ a_{3}^{(2)} &= g(z_{3}^{(2)})= g(\theta_{30}^{(1)}x_{0}+\theta_{31}^{(1)}x_{1}+\theta_{32}^{(1)}x_{2}+\theta_{33}^{(1)}x_{3}) \end{align*}$

$\large h_{\theta}(x)=a^{(3)}=g(z^{(3)})= g(\theta_{10}^{(2)}a_{0}^{(2)}+\theta_{11}^{(2)}a_{1}^{(2)}+\theta_{12}^{(2)}a_{2}^{(2)}+\theta_{13}^{(2)}a_{3}^{(2)})$

简单来说，这一层的每一个激活单元，都需要由上一层的每一个激活单元乘以一个系数再求和，包裹一个激活函数（此处为函数）得到，然后为这一层增加一个偏置单元，继续进行下一层的计算。这种由输入层，逐渐向后计算，计算到输出层的方式，称为前向传播（forward propagation）。

同样，我们可以将其向量化， $x= \begin{bmatrix} x_{0}\\ x_{1}\\ x_{2}\\ x_{3} \end{bmatrix}$ ， $\theta^{(j)}= \begin{bmatrix} \theta_{10}^{(j)} &\theta_{11}^{(j)} &\theta_{12}^{(j)} &\theta_{13}^{(j)} \\ \theta_{20}^{(j)} &\theta_{21}^{(j)} &\theta_{22}^{(j)} &\theta_{23}^{(j)} \\ \theta_{30}^{(j)} &\theta_{31}^{(j)} &\theta_{32}^{(j)} &\theta_{33}^{(j)} \end{bmatrix}$ ， $z^{(j)}= \begin{bmatrix} z_{1}^{(j)}\\ z_{2}^{(j)}\\ z_{3}^{(j)} \end{bmatrix}$ ， $a^{(j)}= \begin{bmatrix} a_{0}^{(j)}\\ a_{1}^{(j)}\\ a_{2}^{(j)}\\ a_{3}^{(j)} \end{bmatrix}$ ，给出公式如下：

$\large \begin{align*} z^{(2)} &= \theta^{(1)}x = \theta^{(1)}a^{(1)}\\ a^{(2)} &= g(z^{(2)})\\ Add& \ a_{0}^{(2)}=1 \\ z^{(3)} &= \theta^{(2)}a^{(2)}\\ h_{\theta}(x) &= a^{(3)}=g(z^{(3)}) \end{align*}$

其中， $\theta^{(j)}$ 的维度为 $s_{j+1}\times(s_{j}+1)$ ， $s_{j}$ 表示第层的单元数量（不包括偏置单元）。

一般化，可得以下公式：

$\large \begin{align*} z^{(j)} &= \theta^{(j-1)}a^{(j-1)} \\ a^{(j)} &= g(z^{(j)})\\ Add &\ a_{0}^{(j)}=1 \\ z^{(j+1)} &= \theta^{(j)}a^{(j)} \\ &... \end{align*}$

3. 神经网络中的多分类

在逻辑回归中，我们已经学习得知 $h_{\theta}(x)=sigmoid(\theta^{T}x)$ 表示分类至此类别的概率。所以，多分类由几个基分类器组成，计算每个类别的 $h_{\theta}(x)$ ，最大的 $h_{\theta}(x)$ 的类别即为分类结果。

同理，在神经网络中，也是运用此原理，如下图所示（图源：吴恩达机器学习）：

图为一个4分类的例子，输出层不再只有一个单元，而是4个单元，每一个单元表示分类至此类别的 $h_{\theta}(x)$ ，也就是概率，概率最大的即为分类结果。

如果这篇文章对你有一点小小的帮助，请给个关注喔~我会非常开心的~

I can丶

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
吴恩达机器学习（六）神经网络（前向传播）

目录0. 前言1. 神经网络模型2. 前向传播（forward propagation）3. 神经网络中的多分类学习完吴恩达老师机器学习课程的神经网络，简单的做个笔记。文中部分描述属于个人消化后的理解，仅供参考。如果这篇文章对你有一点小小的帮助，请给个关注喔~我会非常开心的~0. 前言神经网络（Neural Network），是通过模拟生物大脑的突触神经传播电信...
复制链接

扫一扫

专栏目录