机器学习算法之感知机模型算法原理及实现

最新推荐文章于 2022-02-12 14:58:09 发布

朱师傅哈

最新推荐文章于 2022-02-12 14:58:09 发布

阅读量931

点赞数 1

分类专栏：机器学习算法原理及实现文章标签：感知机代码实现公式推导

本文链接：https://blog.csdn.net/zhushaojiecumt/article/details/103245865

版权

本文深入探讨了感知机模型，包括其输入输出空间、假设空间和线性可分特性。详细解释了感知机学习策略，通过损失函数和随机梯度下降法阐述了学习算法。此外，讨论了原始形式与对偶形式的对比，并分析了算法的收敛性。最后，介绍了如何手工和使用scikit-learn实现感知机。

摘要由CSDN通过智能技术生成

感知机是一种二分类线性模型，属于判别模型

1 算法原理

1.1 感知机模型

输入空间： $\subseteq R^{n}$
输入变量： $\in X$
输出空间： $Y=\{+1,-1\}$
输出变量： $\in\{+1,-1\}$
假设空间： $f(x)=\operatorname{sign}(w \cdot x+b)$
相关说明：输入变量是一个维向量，表示该实例是正类，表示该实例是负类。

如图，输入空间为两维，即 $\subseteq R^{2}$ 。 $x^{(1)}$ 和 $x^{(2)}$ 表示实例的两个特征分量，然后根据训练集中每一个实例在这两个输入变量上的取值，将其划分到输入空间中对应的点，实例就是由图中的 $\circ$ 和 $\times$ 表示的，其中 $\circ$ 表示正类，表示 $\times$ 负类。
感知机模型的输入变量是线性可分的，即图中的点可以使用一条直线分开。在直线上方的是正类，下方的是负类。该直线的表示形式为： $w_{1} x^{(1)}+w_{2} x^{(2)}+b=0$ ，该平面中所有的直线构成该模型的假设空间。则实例分类按照如下公式：
$w_{1} x^{(1)}+w_{2} x^{(2)}+b\left\{\begin{array}{l}{\geqslant 0} & {\text {正例} }\\ {<0}& {\text {负例} }\end{array}\right.$
假设空间：
$f(x)=\operatorname{sign}(w \cdot x+b)=\left\{\begin{array}{ll}{+1} & {w \cdot x+b \geqslant 0} \\ {-1} & {w \cdot x+b<0}\end{array}\right.$
其中 $w$ 是 $n$ 维向量。
$\cdot x=w_{1} x^{(1)}+w_{1} x^{(1)}+\cdots+w_{n} x^{(n)}$
总结： 在感知机模型中，假设空间是关于输入变量的线性函数，再取其符号函数。取符号函数的目的是输出变量是需要分类的，为+1或-1。

1.2 感知机学习策略

1.2.1 损失函数

所有误分类点到分类超平面的距离和：
$b)=-\sum_{x_{i} \in M} y_{i}\left(w \cdot x_{i}+b\right)$
$M$ 为总体中误分类实例的集合。

1.2.2 损失函数推导

感知机模型中，损失函数定义如下：误分类的实例到分类超平面的距离。
对于任意实例 $x_i$ 到超平面的距离为 $\frac{\left|w \cdot x_{i}+b\right|}{\|w\|}$ ，其中 $\|w\|=\sqrt{w_{1}^{2}+\cdots+w_{n}^{2}}$ ，误分类实例 $x_i$ 到超平面的距离等价于
$\frac{-y_{i}\left(w \cdot x_{i}+b\right)}{\|w\|}$
因为 $\left|w \cdot x_{i}+b\right|$ 带有绝对值符号，对于误分类实例 $y_{i}\left(w \cdot x_{i}+b\right)<0$ ，因此加上符号使其始终为正。
对于： $\frac{-y_{i}\left(w \cdot x_{i}+b\right)}{\|w\|}$
计算其最小值，只需计算：
$-\sum_{x_{i} \in M} y_{i}\left(w \cdot x_{i}+b\right)$
**附：**超平面：在输入变量是2维的时候，用一条直线来分类的，当输入变量是3维的时候，用一个平面类划分，当输入变量是4维的时候，用一个3维的平面来划分，这个时候，该平面被称为超平面。当输入变量是 $n$ 维的时候，用一个 $n - 1$ 维的超平面来分类，所以就用超平面来表示分割平面。