《统计学习方法》算法学习笔记（一）之感知机

最新推荐文章于 2024-09-18 18:23:55 发布

岳小刀

最新推荐文章于 2024-09-18 18:23:55 发布

阅读量163

点赞数

文章标签：算法机器学习深度学习

本文链接：https://blog.csdn.net/yly_3026925713/article/details/103721127

版权

本文详细介绍了感知机模型，包括其线性分类的角色、模型参数（权重和偏置）以及线性分类器的概念。接着，文章讨论了感知机的学习策略，即在数据线性可分的情况下，通过最小化误分类点到超平面的距离来优化模型。最后，文章深入探讨了感知机学习算法，包括原始形式的随机梯度下降法和算法的收敛性，并简要提到了对偶形式的学习算法。

摘要由CSDN通过智能技术生成

感知机

总述

感知机是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习旨在求出将训练数据进行线性化分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数极小化，求得感知机模型。感知机学习算法具有简单而易于实现的优点，分为原始形式和对偶形式。感知机预测是用学到的感知机模型对新的输入实例进行分类。

1.1 感知机模型

定义：假设输入空间（特征空间） $x$ 是 $R^n$ ，输出空间是 $y$ ={-1, +1}，输入 $x$ 表示实例的特征向量，对应于输入空间（特征空间）中的点，输出 $y$ 表示实例的类别。由输入空间到输出空间的如下函数
$f (x) = s i g n (w * x + b)$
称为感知机。其中， $w$ 和 $b$ 称为感知机模型参数， $w∈R^n$ 叫权值或权值向量， $b \in R$ 叫作偏置， $w * x$ 表示 $w$ 和 $b$ 的内积， $s i g n$ 是符号函数，即
$\begin{cases} +1 & \text {if $x≥0$} \\ -1, & \text{if $x<0$} \end{cases}$
感知机模型假设空间是定义在特征空间中的所有线性分类模型或线性分类器，即函数集合{ $f ∣ f (x) = w * x + b)$ }。

Alt
线性方程 $w * x + b = 0$ （感知机模型）对应特征空间 $R^n$ 中的一个超平面。感知机学习由训练数据集实例的特征向量及类别：T={ $x_1, y_1), (x_2, y_2), ......,(x_n, y_n)$ }，其中， $x_i∈R^n$ ， $y_i∈y$ ={-1, +1}， $i = 1, 2, . . ., N$ ，求得感知机模型参数 $w 和 b$ 。

1.2 感知机学习策略

前提：数据集线性可分（存在某个超平面 $S$ 能够将数据集的正实例点和负实例点完全正确的划分到超平面的两侧）。

学习策略：定义一个（经验）损失函数并将损失函数极小化，损失函数必须连续且可导。感知机所使用的损失函数是误分类点到超平面的距离。

对于误分类点 $x_i, y_i)$ 来说，有
$y_i(w*x_i+b)>0$
成立。因此，误分类点到超平面 $S$ 的距离是

感知机 $s i g n (w * x + b)$ 学习的损失函数定义为

该损失函数满足连续且可导。损失函数 $L (w, b)$ 是非负的，如果没有误分类点，损失函数值为0；误分类点越少，误分类点离超平面越近，损失函数值越小。

综上所述：感知机的学习策略是在假设空间中选取使损失函数 $L (w, b)$ 最小的模型参数 $w$ 和 $b$ ，即感知机模型。

1.3 感知机学习算法

感知机学习问题转化为求解损失函数的最优化问题，求解最优化问题的方法是随机梯度下降。

1.3.1 感知机学习算法的原始形式

感知机学习算法是误分类驱动的，具体采用随机梯度下降算法。首先，任意选取一个超平面 $w_0和b_0$ ，然后用随机梯度下降法不断极小化上述目标函数。极小化过程不是一次使用 $M$ 中的所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。

损失函数梯度如下：
Alt
随机选择一个误分类点 $x_i, y_i)$ 对 $w 和 b$ 进行更新：
Alt
式中 $\eta(0<\eta≤1)$ 是步长，又称为学习率。

感知机学习算法的原始形式如下：

输入：训练数据集 $T =$ { $x_1,y_1), (x_2,y_2), ..., (x_N,y_N)$ }，其中 $x_i∈x=R^n$ ， $y_i∈y$ ={ $- 1, + 1$ }， $i = 1, 2, . . ., N$ ，学习率 $\eta(0<\eta≤1)$ ；
输出： $w, b$ ；感知机模型 $f (x) = s i g n (w * x + b)$

选取初值 $w_0,b_0$ ;
在训练集中选取数据 $x_i, y_i)$ ;
如果 $y_i(w*x_i+b)≤0$
转至（2），直到训练集中没有误分类点。

直观解释：当一个实例点被误分类，即位于分离超平面错误的一侧时，则调整 $w 和 b$ 的值，使分离超平面向该误分类点的一侧移动，以减少该误分类点与超平面的距离，直至超平面越过该误分类点使其分类正确。

1.3.2 算法的收敛性

由Novikoff定理可证明感知机算法的收敛性：
$k≤(R/\gamma)_2$
式中， $k$ 是算法迭代次数； $R$ 指代 $x_i$ 二范数的最大值； $\gamma>0$ 。 $k$ 存在上界，经过有限次迭代，算法收敛。

感知机算法存在许多解，这些解既依赖于初值的选择，也依赖于迭代过程在误分类点的选择顺序。为了得到唯一的超平面，需要对分离超平面增加约束条件。当训练集线性不可分，感知机学习算法不收敛，迭代结果会发生震荡。

1.3.3 感知机学习算法的对偶形式

对偶形式的基本思想是，将 $w 和 b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式，通过求解其系数而求得 $w 和 b$ 。

原始形似中，对误分类点 $x_i,y_i)$ 通过
Alt
逐步修改 $w 和 b$ ，设修改 $n$ 次，则 $w 和 b$ 关于 $x_i,y_i)$ 的增量分别是 $\alpha_iy_ix_i$ 和 $\alpha_iy_i$ ，这里 $\alpha_i=n_i\eta$ ，这一过程中最终学习到的 $w 和 b$ 可以分别表示为：
Alt
这里 $\alpha_i≥0$ ， $i = 1, 2, . . ., N$ 。当 $\eta=1$ 时，表示第 $i$ 个实例点由于误分类而进行更新的次数（说实话，这句我没看懂 [笑哭]）。实例点更新次数越多，意味着它距离分离超平面越近，也就越难正确分类。这样的实例点对学习结果影响最大。

感知机学习算法的对偶形式如下：
输入：训练数据集 $T =$ { $x_1,y_1), (x_2,y_2), ..., (x_N,y_N)$ }，其中 $x_i∈x=R^n$ ， $y_i∈y$ ={ $- 1, + 1$ }， $i = 1, 2, . . ., N$ ，学习率 $\eta(0<\eta≤1)$ ；
输出： $\alpha,b$ ；感知机模型
Alt
其中， $\alpha = (\alpha_1,\alpha_2,...,\alpha_N)^T$ ， $\alpha_i=n_i\eta$ 。