机器学习——神经网络

最新推荐文章于 2023-07-31 17:28:51 发布

毕业就要失业了

最新推荐文章于 2023-07-31 17:28:51 发布

阅读量953

点赞数

分类专栏：机器学习文章标签：机器学习神经网络深度学习

本文链接：https://blog.csdn.net/weixin_47779143/article/details/121722458

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1. 神经元模型

1.1 什么是神经网络？

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所做的交互反应。
神经网络中最基本的成分是神经元模型。

1.2 M-P神经元模型

神经元接收来自 $n$ 个其他神经元的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总加权输入值与神经元的阈值进行比较，然后通过激活函数处理以产生神经元的输出。
在这里插入图片描述
神经元状态：

当 $\sum\limits_{i=1}^nw_ix_i≥\theta$ 时，神经元被激活，处在兴奋状态，假设其对应输出为 $y = 1$ ；
当 $\sum\limits_{i=1}^nw_ix_i<\theta$ 时，神经元未被激活，处在抑制状态，假设其对应输出为 $y = 0$ 。

激活函数 $f (\cdot)$ ：

激活函数将连续空间 $[- \infty, + \infty]$ 映射到离散空间 $[0, 1]$ ；
理想激活函数是阶跃函数（0表示抑制神经元，1表示激活神经元），但阶跃函数具有不连续、不光滑等不好的性质, 常用的是Sigmoid函数。

在这里插入图片描述
注意：

神经元模型与逻辑回归模型求解的优化问题是一致的，都是线性二分类问题，也就是说在本质上，M-P神经元 = 线性二分类器。进一步， $y=f(\sum\limits_{i=1}^nw_ix_i-\theta)$ 可表示为 $y=f(\hat{w}^T\hat{x})$ ；
Sigmoid函数 ≠ Logistic函数，后者是前者的子集。

在这里插入图片描述

2. 感知机与多层网络

2.1 感知机（Perceptron）

感知机是最简单的神经网络，由两层组成：

输入层：接收外界信号，可以有多个信号；
输出层：M-P神经元，也称为阈值逻辑单元。

在这里插入图片描述
优化目标：最小化所有误分类点到分类超平面的距离之和。

令 $w_0=\theta$ ，则： $\sum\limits_{i=1}^nw_ix_i-\theta=\sum\limits_{i=1}^nw_ix_i-w_0=\hat{w}^T\hat{x}$ 。其中， $\hat{w}=[w_0;w_1;...;w_n],\hat{x}=[-1;x_1;...;x_n]$ ；
点到超平面的距离为： $dist(\hat{x},\hat{w})=\frac{|\hat{w}^T\hat{x}|}{||w||_2}$ ，其中 $||w||_2=\sqrt{\sum\limits_{i=1}^nw_i^2}$ ;
$\hat{x}$ 的真实标签是 $y$ ，通过感知机的预测标签为 $\hat{y}=f(\hat{w}^T\hat{x})$ 。

对于 $y$ 和 $\hat{y}$ 进一步讨论如下：

若 $y = 0$ 被预测为 $\hat{y}=1$ ，则 $\hat{w}^T\hat{x}>0$ 且 $\hat{y}-y=1$ ，因此 $\frac{|\hat{w}^T\hat{x}|}{||w||_2}=(\hat{y}-y)\frac{\hat{w}^T\hat{x}}{||w||_2}$ ；
若 $y = 1$ 被预测为 $\hat{y}=0$ ，则 $\hat{w}^T\hat{x}<0$ 且 $\hat{y}-y=-1$ ，因此 $\frac{|\hat{w}^T\hat{x}|}{||w||_2}=(\hat{y}-y)\frac{\hat{w}^T\hat{x}}{||w||_2}$ 。

综上， $dist(\hat{x},\hat{w})=(\hat{y}-y)\frac{\hat{w}^T\hat{x}}{||w||_2}$ 。

目标函数： $\min\sum\limits_{t∈M}\frac{|\hat{w}^T\hat{x_t}|}{||w||_2}=\sum\limits_t(\hat{y_t}-y_t)\frac{\hat{w}^T\hat{x_t}}{||w||_2}$ $\min J({\hat{w}})=\sum\limits_t(\hat{y_t}-y_t)\hat{w}^T\hat{x_t}$ 其中， $(\hat{y_t}-y_t)\frac{\hat{w}^T\hat{x_t}}{||w||_2}$ 称为几何间隔， $(\hat{y_t}-y_t)\hat{w}^T\hat{x_t}$ 称为函数间隔，因此感知机的目标是最小化几何间隔或函数间隔。无论最小化哪个间隔，都可以达到优化目标，由于函数间隔相对简单，一般采用函数间隔。
标准梯度下降法：沿所有样本的平均梯度方向下降。 $\hat{w}←\hat{w}-\eta\sum\limits_t(\hat{y_t}-y_t)\hat{x_t}$ 随机梯度下降法：随机选取一个样本，沿其梯度下降方向更新。 $\hat{w}←\hat{w}-\eta(\hat{y}-y)\hat{x}$

标准梯度下降法 vs 随机梯度下降法：

一般而言，标准梯度下降的 $\eta$ 比随机梯度下降的大。因为标准梯度下降使用“准确”的梯度，而随机梯度下降使用“近似”的梯度；
当 $J(\hat{w})$ 有多个局部极小值时，随机梯度下降反而更可能避免陷入局部极小值；
标准梯度下降在更新参数时要遍历整个数据集，当数据量很大时，1）收敛很慢；2）不能保证找到全局最小值。

单层感知机特性：

能够解决线性可分的情况（如与、或、非运算）
- 与：令 $w_1=w_2=1,\theta=2$ ，则 $y=f(1·x_1+1·x_2-2)$ ，仅在 $x_1=x_2=1$ 时， $y = 1$ ；
- 或：令 $w_1=w_2=1,\theta=0.5$ ，则 $y=f(1·x_1+1·x_2-0.5)$ ，当 $x_1=1$ 或 $x_2=1$ 时， $y = 1$ ；
- 非：令 $w_1=-0.6,w_2=0,\theta=-0.5$ ，则 $y=f(-0.6·x_1+0·x_2+0.5)$ ，当 $x_1=1$ 时， $y = 0$ ；当 $x_1=0$ 时， $y = 1$ 。
不能解决线性不可分的情况（如异或运算）
- 需要引入多层网络。

2.2 多层网络

为了解决非线性可分问题，需要引入多层网络。

多层网络：包含隐层的网络；
前馈网络：神经元之间不存在同层连接也不存在跨层连接；
多层前馈神经网络：具有层级结构的前馈网络；
隐层和输出层神经元亦称“功能单元”。

注意：由于输入层神经元只接受输入信号，而不进行函数处理，因此输入层一般不记入网络层数中。
在这里插入图片描述

3. 误差逆传播算法

3.1 算法推导与伪代码

最成功、最常用的神经网络算法，可被用于多种任务（不仅限于分类）。

训练集： $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\},x_i∈\mathbb{R}^d,y_i∈\mathbb{R}^l$ ；
输入： $d$ 维特征向量 $x_i∈\mathbb{R}^d$ ；
输出： $l$ 个输出值 $y_i∈\mathbb{R}^l$ ；
隐层： $q$ 个隐层神经元；
假设：功能单元（隐层和输出层神经元）都使用Sigmoid激活函数。

在这里插入图片描述
对于给定样例 $x_k,y_k)$ ，假定网络的实际输出为 $\hat{y}^k=(\hat{y}_1^k,\hat{y}_2^k,...,\hat{y}_l^k)$ ，而 $\hat{y}_j^k=f(\beta_j-\theta_j)$ ，则网络在 $x_k,y_k)$ 上的均方误差为： $E_k=\frac{1}{2}\sum\limits_{j=1}^l(\hat{y}_j^k-y_j^k)^2$ 其中需要学习的参数有 $(d + l + 1) q + l$ 个。

隐藏层神经元到每个输入层神经元的权重，共有 $d \times q$ 个；
输出层神经元到每个隐藏层神经元的权重，共有 $l \times q$ 个；
每个功能单元有一个阈值，隐藏层和输出层分别有 $q$ 个和 $l$ 个。

又是一个小细节：为什么均方误差系数是 $\frac{1}{2}$ 呢？因为系数是个常数，随便取多少都不会影响优化目标。取 $\frac{1}{2}$ 当然是因为方便求导（求梯度），因为后面有个平方项，求导后刚好约掉了！

BP 算法基于梯度下降策略，以目标的负梯度方向对参数进行调整。
例如对于 $w_{hj}$ ，容易得到： $\Delta w_{hj}=-\eta\frac{\partial E_k}{\partial w_{hj}}$ 我们已经知道： $\beta_j=\sum\limits_{h=1}^qw_{hj}b_h$ $\hat{y}_j^k=f(\beta_j-\theta_j)$ $E_k=\frac{1}{2}\sum\limits_{j=1}^l(\hat{y}_j^k-y_j^k)^2$ 注意到 $w_{hj}$ 先影响到 $\beta_j$ ，再影响到 $\hat{y}_j^k$ ，最后才影响到 $E_k$ ，故由链式法则知： $\frac{\partial E_k}{\partial w_{hj}}=\frac{\partial E_k}{\partial \hat{y}_j^k}·\frac{\partial \hat{y}_j^k}{\partial \beta_j}·\frac{\partial \beta_j}{\partial w_{hj}}$ 对三个偏导数计算如下： $\frac{\partial \beta_j}{\partial w_{hj}}=b_h$ $\frac{\partial E_k}{\partial \hat{y}_j^k}·\frac{\partial \hat{y}_j^k}{\partial \beta_j}=(\hat{y}_j^k-y_j^k)f'(\beta_j-\theta_j)=\hat{y}_j^k(1-\hat{y}_j^k)(\hat{y}_j^k-y_j^k)$

上面没看懂？我来给你答疑解惑！我们知道Sigmoid函数的表达式为： $f(x)=\frac{1}{1+e^{-x}}$ ，并且其具有良好的性质，什么性质呢？就是 $f^{'} (x) = f (x) (1 - f (x))$ ，我们又知道 $f(\beta_j-\theta_j)=\hat{y}_j^k$ 所以不难得到 $f'(\beta_j-\theta_j)=\hat{y}_j^k(1-\hat{y}_j^k)$

我们令： $g_j=-\frac{\partial E_k}{\partial \hat{y}_j^k}·\frac{\partial \hat{y}_j^k}{\partial \beta_j}=\hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k)$ 得到： $\Delta w_{hj}=-\eta\frac{\partial E_k}{\partial w_{hj}}=\eta g_jb_h$
同理，我们得到：

$\Delta w_{hj}=\eta g_jb_h$
$\Delta v_{ih}=\eta e_hx_i$
$\Delta \theta_j=-\eta g_j$
$\Delta \gamma_h=-\eta e_h$

其中， $g_j=\hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k)$ ， $e_h=b_h(1-b_h)\sum\limits_{j=1}^lw_{hj}g_j$ 。
于是，我们得到每次迭代的参数更新法则：

$w_{hj}←w_{hj}+\eta g_jb_h$
$v_{ih}←v_{ih}+\eta e_hx_i$
$\theta_j←\theta_j-\eta g_j$
$\gamma_h←\gamma_h-\eta e_h$

算法伪代码：
在这里插入图片描述

3.2 标准BP算法 vs 累积BP算法

标准BP算法：如上，每次仅针对一个训练样例更新权值和阈值，也就是基于单个 $E_k$ 推导而得；
累积BP算法：类似地，推导出基于累积误差最小化的更新规则，就是累积BP算法。

累积BP算法的目标：最小化训练集 $D$ 上的累积误差。 $\min E=\frac{1}{m}\sum\limits_{k=1}^mE_k$ 两者比较：

标准BP算法：每次针对单个训练样例更新权值和阈值；参数更新频繁，不同样例可能抵消，需要多次迭代；
累积BP算法：其优化目标是最小化整个训练集上的累积误差；读取整个训练集一遍才对参数进行更新，参数更新频率较低；
在很多任务中，当累积误差下降到一定程度后，进一步下降会非常缓慢，这时标准BP算法往往会获得较好的解，尤其当训练集非常大时效果更明显。

3.3 防止过拟合

3.3.1 早停

若训练误差连续a轮的变化小于b，则停止训练；
使用验证集：若训练误差降低、验证误差升高，则停止训练。

3.3.2 正则化

在误差目标函数中增加一项（正则项）以描述网络复杂度。

例如，将累积BP算法的误差目标函数修正为： $E=\lambda \frac{1}{m}\sum\limits_{k=1}^mE_k+(1-\lambda)\sum\limits_iw_i^2$ 其中正则项为 $(1-\lambda)\sum\limits_iw_i^2$ ，该正则项会偏好比较小的连接权和阈值，使网络输出更“光滑”；而 $\lambda∈(0,1)$ 用于对经验误差与网络复杂度进行折中，常通过交叉验证法来估计。

3.4 全局最小 vs 局部极小

神经网络的训练过程可看作一个参数寻优过程：即在参数空间中，寻找一组最优参数使得误差最小。
基于梯度的搜索是使用最广泛的参数寻优方法，例如梯度下降法。
如果误差函数仅有一个局部极小，那么找到它就找到了全局最小；但如果有多个，就不能保证了。

跳出局部极小的方法：

不同的初始参数：以多组不同参数值初始化多个神经网络，按照标准方法训练后，取其中误差最小的解作为最终参数；
模拟退火：在每一步都以一定的概率接受比当前解更差的结果；
随机扰动：例如随机梯度下降在计算梯度时加入了随机因素（每次迭代随机选取一个样本）；
遗传算法

注意：上述技术大多是启发式的，说白了就是没有理论保障的，慎用。

4. 其他常见神经网络

在这里插入图片描述

4.1 RBF网络（径向基函数网络）

在这里插入图片描述
补充：

$x$ 是 $d$ 维输入向量， $q$ 是隐层神经元个数， $c_i$ 和 $w_i$ 分别是第 $i$ 个神经元对应的中心和权重， $\rho(x,c_i)$ 是径向基函数。
径向基函数是某种沿径向对称的标量函数，通常定义为样本 $x$ 到数据中心 $c_i$ 之间欧氏距离的单调函数。高斯径向基函数是常用的径向基函数。

4.2 级联相关网络

构造性神经网络，也称为结构自适应神经网络（定义如下）；
级联相关网络是构造性神经网络的代表。

级联相关网络有两个主要成分：

级联：建立层次连接的层级结构；
相关：通过最大化新结点的输出与网络误差之间的相关性来训练参数。

与一般的前馈神经网络相比，级联相关网络无需设置网络层数、隐层神经元数目，且训练速度快，但其在数据较小时易陷入过拟合。

在这里插入图片描述

4.3 Elman网络

Elman网络是递归神经网络的代表。
在这里插入图片描述

毕业就要失业了

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习——神经网络

1. 神经元模型1.1 什么是神经网络？神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所做的交互反应。神经网络中最基本的成分是神经元模型。1.2 M-P神经元模型神经元接收来自nnn个其他神经元的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总加权输入值与神经元的阈值进行比较，然后通过激活函数处理以产生神经元的输出。神经元状态：当∑i=1nwixi≥θ\sum\limits_{i=1}^nw_ix_i≥\thetai=1
复制链接

扫一扫