感知机模型知识要点

最新推荐文章于 2022-05-15 22:40:31 发布

tigerlib

最新推荐文章于 2022-05-15 22:40:31 发布

阅读量610

点赞数

分类专栏： machine learning 文章标签：机器学习感知机

本文链接：https://blog.csdn.net/weixin_44695969/article/details/99902623

版权

machine learning 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

1 感知机（perceptron）学习模型

二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取 +1 和 -1 二值；
感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型；
感知机学习旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型；
感知机学习算法具有简单而易于实现的优点，分为原始形式和对偶形式；
感知机是神经网络与支持向量机的基础。
感知机模型：

$f(x)=sign(w\cdot x+b)，符号函数sign(x)= \begin{cases} +1, & \text{$x\geq 0$} \\[2ex] -1, & \text{$x<0$}\end{cases}$
- 其中， $w$ 和 $b$ 为感知机模型参数， $w\in R^n$ 叫作权重（weight）， $b\in R$ 叫作偏置（bias）
- 感知机模型对应于输入空间（特征空间）中的分离超平面 $w\cdot x+b=0$ 。
感知机模型的假设空间：定义在特征空间中的所有线型分类模型，即函数集合 $\{f|f(x)=w\cdot x+b\}$

2 感知机学习策略

假设：训练数据集是线性可分的
损失函数（经验风险函数）：误分类点到超平面S 的总距离，经过化简得到。

$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)，其中M为误分类点的集合$
- 损失函数是非负的，如果没有误分类点，损失函数值是0。
学习策略：即定义（经验）损失函数，并将损失函数极小化
- $\min_{w,b} L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$

3 感知机学习算法

感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法，有原始形式和对偶形式。
感知机学习算法的原始形式

输入：训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...(x_{N},y_{N})\}$ ，其中 $x_i\in\chi=R^n$ ， $y_i\in\mathcal{Y}=\{-1,+1\}$ ， $i = 1, 2, . ., N$ ，学习率 $\eta(0<\eta\leq1)$ ；

输出： $w, b$ ；感知机模型 $f(x)=sign(w\cdot x+b)$ 。

（1）选取初值 $w_0,b_0(实际当中经常选择w_0=0,b_0=0作为初始值)；$

（2）在训练集中选取一个数据 $x_i,y_i)$

（3）如果 $y_i(w\cdot x_i+b)\leq 0$ （不等式成立表示 $x_i,y_i)$ 为误分类点），

则（梯度下降法）更新 $w, b$ ： $w\leftarrow w+\eta y_ix_i；b\leftarrow b+\eta y_i$

（4）转至（2），直至训练集中没有误分类点。
感知机学习算法的对偶形式
- $w=\sum_{i=1}^N\alpha_iy_ix_i，b=\sum_{i=1}^N\alpha_iy_i，其中\alpha_i=n_i\eta\geq0$
输入：训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...(x_{N},y_{N})\}$ ，其中 $x_i\in\chi=R^n$ ， $y_i\in\mathcal{Y}=\{-1,+1\}$ ， $i = 1, 2, . ., N$ ，学习率 $\eta(0<\eta\leq1)$ ；

输出： $\alpha,b$ ；感知机模型 $f(x)=sign(\sum_{j=1}^N\alpha_jy_jx_j\cdot x+b)$ ，其中 $\alpha=(\alpha_1,\alpha_2,...,\alpha_N)^T$ 。

（1）选取初值 $w_0,b_0(实际当中经常选择w_0=0,b_0=0作为初始值)；$

（2）在训练集中选取一个数据 $x_i,y_i)$

（3）如果 $y_i(\sum_{j=1}^N\alpha_jy_jx_j\cdot x_i+b)\leq 0$ （不等式成立表示 $x_i,y_i)$ 为误分类点），

则（梯度下降法）更新 $\alpha_i,b$ ： $\alpha_i\leftarrow \alpha_i+\eta；b\leftarrow b+\eta y_i$

（4）转至（2），直至训练集中没有误分类点。
实例点更新次数越多，意味着它距离分离超平面越近，也就越难正确分类，换句话说，这样的实例对学习结果影响最大
误分类的次数k 是有上界的，经过有限次搜索，可以找到将训练数据完全正确分开的分离超平面。也就是说，当训练数据集线性可分时，感知机学习算法迭代是收敛的。

$k\leq(\frac{R}{\gamma})^2$
训练集线性不可分时，感知机学习算法不收敛，迭代结果会发生震荡.
感知机学习算法存在许多解，这些解既依赖于初值的选择，也依赖于迭代过程中误分类点的选择顺序。为了得到唯一的超平面，需要对分离超平面增加约束条件，这就是线性支持向量机的思想。

tigerlib

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
感知机模型知识要点

1 感知机（perceptron）学习模型二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取 +1 和 -1 二值；感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型；感知机学习旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型；感知机学习算法具有简单而易于实现的...
复制链接

扫一扫