从感知机开始的神经网络学习（感知机--＞神经网络 --＞BP神经网络 --＞卷积神经网络）

最新推荐文章于 2023-03-27 14:09:27 发布

小松萘

最新推荐文章于 2023-03-27 14:09:27 发布

阅读量551

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_44116061/article/details/107805401

版权

机器学习专栏收录该内容

7 篇文章 3 订阅

订阅专栏

感知机

目的

将线性可分的数据集分为两类。

设数据集标签值 $y_{i}=+-1$ ，最终求出一个超平面 $S : w x + b = 0$ 满足 $y_{i}(wx_{i}+b)>0$

原理

定义损失函数：误分类点到超平面的距离和

使用距离和的目的：使损失函数为 $(w, b)$ 的连续可导函数—> 便于使用梯度下降法

损失函数进化：
$\frac{1}{\left \| w \right \| } \sum_{i误分类} |w\bullet x_{i}+b|$
对于误分类的点，由于 $-y_{i}(w\bull x_{i}+b)>0$ ，故可以去掉绝对值表示为
$\frac{1}{\left \| w \right \| } \sum_{i误分类} y_{i}(wx_{i}+b)$
由于 $\left \| w \right \|$ 的值并不影响 $y_{i}(wx_{i}+b)$ 正负的判断，故最后的损失函数为：
$-\sum_{i误分类} y_{i}(wx_{i}+b)$
设置一个初始值，由梯度下降法逐步逼近解

梯度下降法
- 利用梯度找到函数下降最快的方向，单维中梯度即为斜率，多维中梯度为偏导数组合成的一个向量，感知机模型有两维： $w, b$
- 下降值由学习率/步长 $\eta$ 决定，即
  $w\Longleftarrow w+ \eta y_{i}x_{i}\\ b\Longleftarrow b+ \eta y_{i}$
  学习率过高，容易错过最低点，学习率过低，算法效率降低
- 对于某个超平面，可能有多个误分类点，每次随机选择一个误分类点使其梯度下降

两种形式

原始

算法流程：

（1）选取初值 $w_{0},b_{0}$

（2）如果没有误分类点 $y_{i}(w\bull x_{i}+b) \le 0$ ，结束算法，否则随机选择一个误分类点，令
$w\Longleftarrow w+ \eta y_{i}x_{i}\\ b\Longleftarrow b+ \eta y_{i}$
算法缺点：寻找误分类点的时候要做多次内积，不适用于维度过高的数据

对偶

为了避免原始算法中计算内积的现象，对 $w, b$ 的表达式做进一步修改。

由原始算法可得，最终 $w$ 为 $x_{i}y_{i}$ 的线性组合， $b$ 为 $y_{i}$ 的线性组合，令 $n_{i}$ 表示第 $i$ 数据作为误分类点更新模型的次数， $a_{i} = n_{i}\eta$ ，则 $w, b$
$\sum_{i=1}^{N} a_{i}y_{i}x_{i}\\ b = \sum_{i=1}^{N} a_{i}y_{i}$

算法流程：

（0）预先计算内积矩阵
$=[x_{i}\bull x_{j} ]_{N×N}$

（1）选取初值 $w_{0},b_{0}$

（2）如果没有误分类点 $y_{i}(\sum_{j=1}^{N}a_{j}y_{j}x_{j} \bull x_{i}+b)\le 0$ ，结束算法，否则随机选择一个误分类点，令
$a_{i}\Longleftarrow a_{i}+ \eta\\b\Longleftarrow b+ \eta y_{i}$
算法缺点：寻找误分类点时需要遍历样本集计算 $w$ ，不适用于样本集过大的数据

感知机到神经网络

神经网络基本单元：

神经网络(由多个基本单元组成)：

在这里插入图片描述

神经网络的反向更新(BP)

基于梯度下降法进行更新

在这里插入图片描述

输出为 $\hat{y_{j}}= f(\beta_{j}-\theta_{j})$

损失函数一般设置为:（ $\frac{1}{2}$ 是为了后面求导的便利）
$E_{k} = \frac{1}{2}\sum_{j=1}^{l}(\hat{y_{j}^{k}} - y^{k}_{j})^{2}$
反向更新中需要更新的参数为：各层之间的权值和阈值，更新公式为:
$\Delta v \\\Delta v = -\eta \frac{\partial E}{\partial v}$

卷积神经网络CNN

CNN结构：特征提取+分类识别

在这里插入图片描述

卷积：提取特征

激活函数：使得网络具有非线性特征

池化：进一步提取特征，同时缩小矩阵大小

全连接层：普通神经网络，进行分类

卷积层

特征提取，可以有多个卷积核，提取多个特征

填充padding，我们卷积的时候，为了可以更好的识别边缘，一般都会在输入矩阵在周围加上若干圈的0再进行卷积，加多少圈则P为多少。
步幅，即在卷积过程中每次移动的像素距离大小。

池化层

主要有取最大值和取平均值两种

在这里插入图片描述

常用分类器：softmax

将多分类结果以概率形式表现，概率需要满足：非负，相加为一

在这里插入图片描述

小松萘

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
从感知机开始的神经网络学习（感知机--＞神经网络 --＞BP神经网络 --＞卷积神经网络）

目录感知机目的原理两种形式原始对偶感知机目的将线性可分的数据集分为两类。设数据集标签值yi=+−1y_{i}=+-1yi=+−1 ，最终求出一个超平面S:wx+b=0S:wx+b=0S:wx+b=0 满足yi(wxi+b)>0y_{i}(wx_{i}+b)>0yi(wxi+b)>0原理定义损失函数：误分类点到超平面的距离和使用距离和的目的：使损失函数为(w,b)(w,b)(w,b) 的连续可导函数—> 便于使用梯度下降法损失函数进化：1∥w∥∑i误分类∣w
复制链接

扫一扫