Datawhale组队学习之西瓜书task4

最新推荐文章于 2024-09-14 21:53:48 发布

legnAray

最新推荐文章于 2024-09-14 21:53:48 发布

阅读量170

点赞数

分类专栏：机器学习文章标签：学习人工智能

本文链接：https://blog.csdn.net/weixin_50890909/article/details/128795049

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第五章神经网络

5.1 M-P神经元模型

神经网络（neural network）的基础是神经元（neuron）模型，其中最常用的是M-P神经元模型：

在这里插入图片描述

在该模型中，神经元接收n个其他神经元的信号，通过w进行带权重连接，将所有带权重输入与阈值相减，通过激活函数（activation function）进行输出：
$\begin{aligned} y&=f\left(\boldsymbol{w}^\mathbf{T}\boldsymbol{x}-\theta\right) \end{aligned}$

5.2 感知机

感知机（perceptron）由两层神经元组成，输入层有两个神经元，负责接收外界输入信号，输出层有一个神经元，负责处理信号并输出，因此只有输出层为M-P神经元且仅有一个M-P神经元

感知机的激活函数为阶跃函数，因此其数学表达式为：
$\begin{aligned} y&=\text{sgn}\left(\boldsymbol{w}^\mathbf{T}\boldsymbol{x}-\theta\right) \\ &=\begin{cases} 1 & \text{ if} \left(\boldsymbol{w}^\mathbf{T}\boldsymbol{x}-\theta\right)\geqslant0 \\ 0& \text{ if}\left(\boldsymbol{w}^\mathbf{T}\boldsymbol{x}-\theta\right) <0 \end{cases} \end{aligned}$
通过对分类错误样本的分析，我们可以找到它的损失函数：
$\begin{aligned} L(\boldsymbol w,\theta)=\sum_{\boldsymbol x\in M}(\hat{y}-y)(\boldsymbol{w}^\mathbf{T}\boldsymbol{x}-\theta) \end{aligned}$
式中， $M$ 为分类错误的样本集合， $\hat{y}$ 为感知机的预测值。很明显，该损失函数非负。

为了方便讨论，现在将 $\theta$ 看作一个固定输入为-1的哑结点（dummy node）所对应的权重，并令 $x_{n+1}=-1$ ，则求解目标变为：
$\begin{aligned} \underset{\boldsymbol w}{\text{arg min }}L(\boldsymbol w)=\underset{\boldsymbol w}{\text{arg min }}{\sum_{\boldsymbol x\in M}(\hat{y}-y)\boldsymbol{w}^\mathbf{T}\boldsymbol{x}} \end{aligned}$
我们可以通过随机梯度下降（SGD，即训练时对每个样本都进行一次参数更新）来求解此问题：
$\begin{aligned} \boldsymbol w&\leftarrow\boldsymbol w +\Delta\boldsymbol w \\ \Delta\boldsymbol w&=\eta(y-\hat y)\boldsymbol x \end{aligned}$
式中， $\Delta\boldsymbol w$ 由损失函数对 $\boldsymbol w$ 求导得到（因为采用的是SGD，因此损失函数中将求和去除，只考虑单个样本的损失函数）， $\eta\in(0,1)$ 称为学习率（learning rate），是一个可进行人为调整的超参数（super parameter）

对于任意线性可分（linearly separable）的数据集，即在特征空间中存在一个超平面可以将正反例一分为二，那么感知机一定可以找到该超平面，相对的，如果数据集非线性可分，那么感知机将难以稳定，无法求解。（意思就是感知机只能解决部分二分类问题）

5.3 BP算法

5.3.1 多层前馈网络

既然感知机只能解决线性可分问题，那么什么样的神经网络可以解决非线性可分问题呢？

考虑到应该使用更多的M-P神经元，如下图所示：

在这里插入图片描述

上图即为多层前馈神经网络（multi-layer feedforward nerural networks），每层神经元与下一层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接。

5.3.2 误差逆传播算法

对于多层前馈网络，一般的算法是无法进行参数优化的，因此需要更强大的学习算法：误差逆传播算法（BackPropagation，简称BP，又称反向传播算法）

考虑如下的多层前馈网络，非输入神经元的激活函数均为sigmoid函数

其中，有 $d$ 个输入神经元， $q$ 个隐层神经元， $l$ 个输出神经元，输出层第 $j$ 个神经元的阈值用 $\theta_j$ 表示，隐层第 $h$ 个神经元的阈值用 $\gamma_h$ 表示，隐层第 $h$ 个神经元与输出层第 $j$ 个神经元之间的连接权为 $w_{hj}$ ，输入层第 $i$ 个神经元与隐层第 $h$ 个神经元之间的连接权为 $v_{ih}$ ：

在这里插入图片描述

对于样例 $(\boldsymbol x_k,\boldsymbol y_k)$ ，神经网络输出为 $\hat{\boldsymbol y}_k=\text{sigmoid}(\boldsymbol\beta-\boldsymbol\theta)\in\mathbb{R}^l$ ，则对该样例的均方误差为：
$\begin{aligned} L_k=\frac{1}{2}\sum_{j=1}^l(\hat y^k_j-y^k_j)^2 \end{aligned}$
考虑类似感知机的参数更新公式：
$\begin{aligned} w_{hj}&\leftarrow w_{hj}+\Delta w_{hj} \\ \theta_{j}&\leftarrow \theta_{j}+\Delta \theta_{j} \\ v_{ih}&\leftarrow v_{ih}+\Delta v_{ih} \\ \gamma_{h}&\leftarrow \gamma_{h}+\Delta \gamma_{h} \\ \end{aligned}$
BP算法基于梯度下降算法，以目标的负梯度方向对参数进行调整：
$\begin{aligned} \Delta w_{hj}&=-\eta\frac{\partial L_k}{\partial w_{hj}}=\eta g_jb_h \\ \Delta \theta_{j}&=-\eta\frac{\partial L_k}{\partial \theta_{j}}=-\eta g_j \\ \Delta v_{ih}&=-\eta\frac{\partial L_k}{\partial v_{ih}}=\eta e_hx_i \\ \Delta \gamma_{h}&=-\eta\frac{\partial L_k}{\partial \gamma_{h}}=-\eta e_h \\ \end{aligned}$
其中 $g_j$ 称为输出层梯度项， $e_h$ 称为隐层梯度项：
$\begin{aligned} g_j&=-\frac{\partial L_k}{\partial\hat y^k_j}\cdot\frac{\partial\hat y^k_j}{\partial\beta_j} \\ &=\hat y^k_j(1-\hat y^k_j)(y^k_j-\hat y^k_j)\\ e_h&=-\frac{\partial L_k}{\partial b_h}\cdot\frac{\partial b_h}{\partial\alpha_h} \\ &=b_h(1-b_h)\sum_{j=1}^lw_{hj}g_j \end{aligned}$
具体推导过程比较长，请参考南瓜书。