统计学习方法（一）--感知机（Perceptron）理解

最新推荐文章于 2022-05-15 22:40:31 发布

咸yu奶糖

最新推荐文章于 2022-05-15 22:40:31 发布

阅读量508

点赞数

分类专栏：统计学习方法文章标签：机器学习

本文链接：https://blog.csdn.net/yufei0413/article/details/105203292

版权

统计学习方法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

感知机概述
模型
学习策略
- 数据集线性可分的假设
- 学习策略
学习算法
- 原始形式
- 对偶形式

感知机概述

感知机（perceptron）是二类分类的线性分类模型。

感知机对应于输入空间中将实例划分为正负两类的分离超平面，属于判别模型。

这里以模型，策略和算法三个部分做总结。

模型

感知机模型表示为由输入空间 $\chi \subseteq \R^n$ 到输出空间 $y\in\{-1, +1\}$ 的如下函数：
$sign(w\cdot x + b)$
其中 $w$ 是权值， $b$ 是偏置， $s i g n$ 是符号函数，即：
$y=\begin{cases} +1,\quad x\geq 0 \\ -1,\quad x< 0 \end{cases}$
感知机的几何解释是线性方程 $w\cdot x+b=0$ 对应与特征空间 $R^n$ 中的一个超平面 $S$ ， $w$ 是超平面的法向量， $b$ 是超平面的截距。
在这里插入图片描述

学习策略

数据集线性可分的假设

感知机学习的前提假设是数据集为线性可分数据集。

若某个超平面 $w\cdot x+b$ 能够将数据集的正负实例点完全正确地划分到其两侧，则该数据集线性可分。

学习策略

为了找到这样的超平面，需确定模型参数 $w 和 b$ 。感知机的学习策略就是定义损失函数并选取损失函数最小化时的 $w 和 b$ 。

损失函数的一个自然选择是误分类点的总数。但是，这样的损失函数不是参数 $w, b$ 的连续可导函数，不易优化。

感知机采用的损失函数是误分类点到超平面的总距离，即
$L(w,b)=-\displaystyle\sum_{x_i\in M}y_{i}(w\cdot x_{i}+b)$

（以下是损失函数具体推导过程）

输入空间 $R^{n}$ 中任一点 $x_{0}$ 到超平面的距离：
$\frac{1}{||w||}|w\cdot x_{0}+b|$
这里， $∣ ∣ w ∣ ∣$ 是 $L_{2}$ 范数。

对误分类点 $x_{i},y_{i})$ ，有
$-y_{i}(w\cdot x_{i}+b)>0$
这是因为当 $w\cdot x_{i}+b>0$ 时， $y_{i}=-1$ ，当 $w\cdot x_{i}+b<0$ ， $y_{i}=1$ ，故误分类点到超平面的距离是：
$-\frac{1}{||w||}\sum\limits_{x_{i}\in M}y_{i}(w\cdot x_{0}+b)$
不考虑 $\frac{1}{||w||}$ ，就得到感知机学习的损失函数。

不考虑 $\frac{1}{||w||}$ 的原因有以下两点：

$\frac{1}{||w||}$ 不影响 $y_{i}(w⋅x_{i}+b)$ 正负的判断，即不影响学习算法的中间过程。因为感知机学习算法是误分类驱动的，这里需要注意的是所谓的“误分类驱动”指的是我们只需要判断 $y_{i}(w⋅x_{i}+b)$ 的正负来判断分类的正确与否，而 $\frac{1}{||w||}$ 并不影响正负值的判断。所以 $\frac{1}{||w||}$ 对感知机学习算法的中间过程可以不考虑。
$\frac{1}{||w||}$ 不影响感知机学习算法的最终结果。因为感知机学习算法最终的终止条件是所有的输入都被正确分类，即不存在误分类的点。则此时损失函数为0。对应于 $y_{i}(w⋅x_{i}+b)$ ，即分子为0。则可以看出 $\frac{1}{||w||}$ 对最终结果也无影响。

学习算法

感知机学习问题转化为损失函数最优化问题，学习算法采用随机梯度下降法进行最优化。具体算法包括原始形式和对偶形式。

原始形式

感知机学习算法是对以下损失函数极小化问题求解的算法：
$\min_{w,b}L(w,b)=-\sum\limits_{x_{i}\in M} y_{i}(w\cdot x_{i}+b)$
其中 $M$ 为误分类点的集合。

首先，任意选取一个超平面 $w_{0},b_{0}$ ，然后用梯度下降法不断地极小化目标函数，极小化过程中不是一次使 $M$ 中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。

损失函数 $L (w, b)$ 的梯度为：
$\nabla_{w}L(w,b)=-\sum\limits_{x_{i}\in M}y_{i}x_{i}$
$\nabla_{b}L(w,b)=-\sum\limits_{x_{i}\in M}y_{i}$
随机选取一个误分类点 $x_{i},y_{i})$ ，对 $w, b$ 进行更新
$w\leftarrow w+\eta y_{i}x_{i}$
$b\leftarrow b+\eta y_{i}$
其中 $\eta(0<\eta \leq 1)$ 为为学习率。

当一个实例点被误分类时，调整 $w, b$ 的值，使分离超平面向该误分类点的一侧移动，以减少该误分类点与超平面之间的距离，直至超平面越过该误分类点使其被正确分类，这样通过迭代可以期待损失函数不断减小，直到为0。

对偶形式

将 $w$ 和 $b$ 表示为实例 $x_{i}$ 和 $y_{i}$ 的线性组合的形式，通过求解其系数而求得 $w$ 和 $b$ 。不失一般性，假设 $w$ 和 $b$ 的初始值均为0。对误分类点 $x_{i},y_{i})$ 通过
$w\leftarrow w+\eta y_{i}x_{i}$
$b\leftarrow b+\eta y_{i}$
逐步更新 $w, b$ ，假设更新了n次，则 $w, b$ 关于 $x_{i},y_{i})$ 的增量分别是 $\alpha_{i}y_{i}x_{i}$ 和 $\alpha_{i}y_{i}$ ，这里 $\alpha_{i}=n_{i}\eta$ 。最后学习到的 $w, b$ 可以分别表示为
$w=\sum\limits_{i=1}^{N}\alpha_{i}y_{i}x_{i}$
$b=\sum\limits_{i=1}^{N}\alpha_{i}y_{i}$
下面对照原始形式来叙述感知机学习算法的对偶形式。

感知机模型 $f(x)=sign(\sum\limits_{j=1}^{N}\alpha_{j}y_{j}x_{j}\cdot x+b)$ ，其中 $\alpha=(\alpha_{1},\alpha_{2},\cdots,\alpha_{N})^{T}$

（1）初始化 $\alpha$ 和 $b$ 为0
（2）在训练集中选取数据 $x_{i},y_{i})$
（3）如果 $-y_{i}(\sum\limits_{j=1}^{N}\alpha_{j}y_{j}x_{j}\cdot x+b)$ 是误分类点则：
$\alpha_{i}\leftarrow \alpha_{i}+\eta$
$b\leftarrow b+\eta y_{i}$
（4）转至(2)直到没有误分类点

对偶形式中训练实例仅以内积的形式出现。为了方便，可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储，这个矩阵就是所谓的Gram矩阵。

感知机学习算法的原始形式和对偶形式迭代都是收敛的，存在多个解。

参考:
https://www.cnblogs.com/huangyc/p/9706575.
https://blog.csdn.net/wkj1026639175/article/details/79827923.

咸yu奶糖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法（一）--感知机（Perceptron）理解

感知机感知机（perceptron）是二类分类的线性分类模型。感知机对应于输入空间中将实例划分为正负两类的分离超平面，属于判别模型。模型感知机模型表示为由输入空间χ⊆Rn\chi \subseteq \R^nχ⊆Rn到输出空间y∈{−1,+1}y\in\{-1, +1\}y∈{−1,+1}的如下函数：f(x)=sign(w⋅x+b)f(x) = sign(w\cdot x + b)f...
复制链接

扫一扫