详解神经网络的基本原理

inforx

已于 2022-05-11 23:12:05 修改

阅读量2.8k

点赞数 2

分类专栏：卷积神经网络文章标签：神经网络机器学习

于 2022-05-11 00:02:55 首次发布

本文链接：https://blog.csdn.net/zhendong825/article/details/124699788

版权

卷积神经网络专栏收录该内容

6 篇文章 2 订阅

订阅专栏

1. 神经元

神经元(neuron)是神经网络的基本计算单元，也被称作节点(node)或者单元(unit)。它可以接受来自其他神经元的输入或者是外部的数据，然后计算一个输出。每个输入值都有一个权重(weight),权重的大小取决于这个输入相比于其他输入值的重要性。然后在神经元上执行一个特定的函数 f, 定义如下图所示，这个函数会该神经元的所有输入值以及其权重进行一个操作。

由上图可以看到，除了权重外，还有一个输入值是1的偏置值bias。而这里的函数f就是一个被称为激活函数的非线性函数。它的目的是给神经元的输出引入非线性。因为在现实世界中的数据都是非线性的，因此我们希望神经元都可以学习到这些非线性的表示。

下面是一些比较常见的激活函数：

Sigmoid: 输出范围是[0,1]

tanh: 输出范围是[-1,1]

ReLU:在负区间为零，正区间上函数为y=x

2. 前向神经网络

前向神经网络是第一个也是最简单的一种人工神经网络了。下面给出一个前向神经网络的简单例子示意图。

如上图所示，这个神经网络分为3个网络层，分别是输入层，隐藏层和输出层，每个网络层都包含有多个神经元，每个神经元都会跟相邻的前一个层的神经元有连接，这些连接其实也是该神经元的输入。根据神经元所在层的不同，前向神经网络的神经元也分为三种，分别为：

输入神经元：位于输入层，主要是传递来自外界的信息进入神经网络中，比如图片信息，文本信息等，这些神经元不需要执行任何计算，只是作为传递信息，或者说是数据进入隐藏层。
隐藏神经元：位于隐藏层，隐藏层的神经元不与外界有直接的连接，它都是通过前面的输入层和后面的输出层与外界有间接的联系，因此称之为隐藏层，上图只是有1个网络层，但实际上隐藏层的数量是可以有很多的，远多于1个，当然也可以没有，那就是只有输入层和输出层的情况了。隐藏层的神经元会执行计算，将输入层的输入信息通过计算进行转换，然后输出到输出层。
输出神经元：位于输出层，输出神经元就是将来自隐藏层的信息输出到外界中，也就是输出最终的结果，如分类结果等。

前向网络中，信息是从输入层传递到输出层，只有前向这一个方向，没有反向传播，也不会循环（不同于RNN，它的神经元间的连接形成了一个循环）。

下面是两个前向神经网络的例子：

单层感知器——最简单的前向神经网络，并且不含任何隐藏层。
多层感知器——拥有1个或多个隐藏层。

3. 多层感知器(MLP)

单层感知器只有输入层和输出层，所以只能学习线性函数，而多层感知器拥有1个或多个隐藏层，因此也就可以学习非线性函数了。下面是拥有一个隐藏层的MLP的例子示意图：

上图显示该MLP有两个输入值X1和X2，隐藏层有两个神经元，然后有两个输出值Y1和Y2。图中还展示了其中一个隐藏层神经元的计算:

4. 反向传播算法

MLP要能够获得更好的结果，单单通过前向传播计算是不够的，神经网络除了前向传播计算，还有反向传播算法，通过反向传播来更新权值，从而获得更好的训练结果。

反向传播误差，也被简称为反向传播，是用于训练神经网络的方法之一，它是一个有监督学习方法，也就是说它是从训练数据的标签来进行学习，即相当于有一个监督者负责指导它的学习。
简单来说，反向传播是“从错误中进行学习”，监督者会在神经网络出错的时候修正它。
学习的目的主要是为了给隐藏层的每个节点的连接的权重分配一个正确的数值。当给定一个输入向量，这些权重可以决定输出的向量。
在监督学习中，训练集是有标签的，这意味着，对于给定的一些输入，我们是可以知道一些期望的输出值，也就是标签是什么的。
反向传播算法：
在初始阶段，所有权重都是随机分配的。对于训练集的每个输入值，经过神经网络的前向计算后，得到的输出值将会与期望的输出进行比较，然后得到的误差会传回给前面的网络层。这个误差会被记下，然后权重会进行相应的调整。这个过程会不断重复，知道输出的误差低于一个设定好的阈值。
当上述算法结束，我们就会得到一个训练好的网络，可以应用于一些新的输入数据。

下图展示了一个MLP的反向传播过程

图中展示的是一个给定的例子的训练数据，训练数据如下：

要预测的例子如下：

这个例子中输入数据，或者说输入的特征是学习时间和中期考试成绩，输出结果是期末考试结果，并且是用0和1表示，即这是一个二分类问题。

上图展示的就是MLP是一个拥有1个隐藏层的例子，输入层有 3 个节点，其中 1 个是数值为 1，也就是它与节点的连接上的数值表示的是偏置值，另外两个节点传递的就是两个输入数据；隐藏层中，除了表示偏置值节点外，有两个节点，而输出层也是有两个输出节点，上面的节点表示通过（Pass）的概率，而下面的节点表示不通过（Fail）的概率。

在分类任务中，我们通常使用 Softmax function 作为输出层的激活函数，这是为了保证输出值是概率值，并且输出值的和是1。Softmax函数会将输入的一个包含任意实数的向量变成一个包含范围在0到1的数值的向量。因此，在这里的例子中，有 Probability(Pass)+Probability(Fail)= 1