神经网络入门笔记

淀粉爱好者

已于 2022-05-11 22:30:03 修改

阅读量265

点赞数

文章标签：深度学习神经网络机器学习

于 2022-05-11 21:53:37 首次发布

本文链接：https://blog.csdn.net/weixin_44005728/article/details/124719599

版权

学习资料：
《机器学习》周志华

一、基本概念

定义：神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。
最基本成分：神经元模型
神经网络的学习过程：根据训练数据来调整神经元之间的连接权(connection weight)以及每个功能神经元的阈值。

二、神经元模型

1. 原理

每个神经元与其他神经元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过了一个“阈值”(threshold)，那么它就会被激活，即 “兴奋”起来，向其他神经元发送化学物质。

2. M-P神经元模型

在这里插入图片描述

2.1 原理

神经元接收到来自其他神经元传递过来的输入信号，这些输入信号通过带权重的连接(connection)进行传递，神经元接收到的总输入值将与神经元的阈值进行比较，然后通过激活函数(activation function)处理以产生神经元的输出。

2.2 激活函数

理想：阶跃函数（不够连续、光滑）
实际常用：Sigmoid函数，也称为“挤压函数”，把可能在较大范围内变化的输入值挤压到(0 ,1 )输出值范围内。

三、感知机与多层模型

1. 感知机（Perceptron）

1.1 组成

由两层神经元组成

输入层：接收外界信号传递给输出层
输出层：M-P神经元，亦称“阈值逻辑单元”(threshold logic unit)

在这里插入图片描述

1.2 感知机实现与或非运算

$y=f(\sum_iw_ix_i-\theta)$ ，假定 $f$ 为阶跃函数

“与” $(x_1\wedge x_2)$ ： $w_1=w_2=1,\space \theta=2$ ，仅在 $x_1=x_2=1$ 时， $y = 1$
“或” $(x_1\vee x_2)$ ： $w_1=w_2=1,\space \theta=0.5$ ，当 $x_1=1$ 或 $x_2=1$ 时， $y = 1$
“非” $(\neg x_1)$ ： $w_1=-0.6,\space w_2=0,\space \theta=-0.5$ ，当 $x_1=1,\space y=0;\space x_1=0,\space y=1$

1.3 感知机学习：

学习内容：给定训练数据集，通过学习得到权重 $w_i(i=1,2,\dots,n)$ 及阈值 $\theta$

💡 阈值 $\theta$ 可看作一个固定输入为-1的“哑结点”(dummynode)所对应的连接权重 $w_{n+1}$ ，这样权重和阈值的学习就可统一为权重的学习

学习规则：对训练样例 $(x, y)$ ，感知机的输出为 $\hat{y}$ ，调整感知机的权重

$w_i \leftarrow w_i+\Delta w_i \tag{1}$

$\Delta w_i=\eta(y-\hat{y})x_i\tag{2}$
- 学习率（Learning rate）： $\eta \in(0,1)$ ，通常设置为一个小正数

2. 多层模型

目的：解决非线性可分问题
特征：输入层和输出层之间包含一层或多层神经元，称为隐层或隐含层（hidden layer）

💡 隐含层和输出层的神经元都是拥有激活函数的功能神经元
多层前馈神经网络（multi-layer feedforward neural networks）

在这里插入图片描述

每层神经元与下一层神经元全互连，神经元之间不同层连接也不跨层连接
输入层神经元接受外界输入
隐含层和输出层神经元对信号进行加工
输出层神经元输出最终结果

四、误差逆传播算法（BP算法）

在这里插入图片描述

1. 参数描述

$d$ 个输入神经元， $l$ 个输出神经元， $q$ 个隐层神经元

$\{ x_1,\dots x_i,\dots x_d\}$ ：输入层的 $d$ 个输入
$v_{ih}$ ：输入层第 $i$ 个神经元和隐层第 $h$ 个神经元之间的连接权
$\alpha_h$ ：隐层第 $h$ 个神经元的输入
$\gamma_h$ ：隐层第 $h$ 个神经元的阈值
$\{ b_1,\dots b_h,\dots b_q\}$ ：隐层的 $q$ 个输出
$w_{hj}$ ：隐层第 $h$ 个神经元和输出层第 $j$ 个神经元之间的连接权
$\beta _j$ ：输出层第 $j$ 个神经元的输入
$\theta_j$ ：输出层第 $j$ 个神经元的阈值
$\{ y_1,\dots y_j,\dots y_l\}$ ：输出层的 $l$ 个输出

2. 公式推导

对单个训练例 $(\bm{x}_k,\bm{y}_k)$ 神经网络输出 $\bm{\hat{y}}_k=(\hat{y}_1^k,\hat{y}_2^k,\dots,\hat{y}_l^k)$

第 $j$ 个输出
$\hat{y}_j^k=f(\beta_j-\theta_j) \tag{3}$
网络在 $(\bm{x}_k,\bm{y}_k)$ 上的均方误差
$E_k=\frac{1}{2}\sum_{j=1}^{l}(\hat{y}_j^k-y_j^k)^2 \tag{4}$
任意参数 $v$ 的更新估计式
$v\leftarrow v+\Delta v \tag{5}$
以隐层到输出层的连接权 $w_{hj}$ 为例，对公式（4）的误差 $E_k$ ，给定学习率 $\eta$ ，得到 $\Delta w_{hj}$
$\Delta w_{hj}=-\eta\frac{\partial E_k}{\partial w_{hj}} \tag{6}$ $\frac{\partial E_k}{\partial w_{hj}}= \frac{\partial E_k}{\partial \hat{y}_j^k}\cdot \frac{\partial \hat{y}_j^k}{\partial \beta_{j}}\cdot \frac{\partial \beta_j}{\partial w_{hj}}\tag{7}$
根据 $\beta_j$ 的定义
$\frac{\partial \beta_j}{\partial w_{hj}}=b_h \tag{8}$
Sigmoid函数性质
$\tag{9}$
根据(3)(4)，有
$\begin{aligned} g_j &=-\frac{\partial E_k}{\partial \hat{y}_j^k}\cdot\frac{\partial \hat{y}_j^k}{\partial \beta_j}\\ &=-(\hat{y}_j^k-y_j^k)f'(\beta_j-\theta_j)\\&=\hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k) \end{aligned}\tag{10}$
将(8)(10)代入(7)再带入(6)，得到BP算法中关于 $w_{hj}$ 的更新公式
$\Delta w_{hj}=\eta g_jb_h \tag{11}$
类似可得
$\Delta\theta_j=-\eta g_j\tag{12}$ $\Delta v_{ih}=\eta e_hx_i\tag{13}$ $\Delta\gamma_h=-\eta e_h \tag{14}$
其中
$e_h=b_h(1-b_h)\sum_{j=1}^lw_{hj}g_j\tag{15}$