【统计学习方法】第2章感知机

最新推荐文章于 2024-08-05 23:56:13 发布

莯风

最新推荐文章于 2024-08-05 23:56:13 发布

阅读量82

点赞数 1

分类专栏：统计学习方法文章标签：学习方法机器学习算法

本文链接：https://blog.csdn.net/weixin_47667221/article/details/130624495

版权

统计学习方法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

感知机（perceptron）是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取 $+ 1$ 和 $- 1$ 二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习算法具有简单而易于实现的优点，分为原始形式和对偶形式。

2.1 感知机模型

假设输入空间（特征空间）是 $\mathcal{X}\subseteq\mathbb{R}^n$ ，输出空间是 $\mathcal{Y}=\{+1, -1\}$ 。由输入空间到输出空间的如下函数：

$f(x)=sign(w\cdot x+b)$

称为感知机。其中， $w$ 和 $b$ 为感知机模型参数， $w\in\mathbb{R}^n$ 叫做权值（weight）或权值向量（weight vector）， $b\in\mathbb{R}$ 叫做偏置（bias）， $s i g n$ 是符号函数。

2.2 感知机学习策略

给定训练集

$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$

其中， $x_i\in\mathcal{X}=\mathbb{R}^n$ ， $y_i\in\mathcal{Y}=\{+1,-1\}$ ， $i=1,2,\cdots,N$ 。感知机学习的损失函数定义为

$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$

其中 $M$ 为误分类点的集合。这个损失函数就是感知机学习的经验风险函数。

2.3 感知机学习算法

2.3.1 感知机学习算法的原始形式

感知机学习算法是误分类驱动的，具体采用随机梯度下降法（stochastic gradient descent）。首先，任意选取一个超平面 $w_0,b_0$ ，然后用梯度下降法不断地极小化目标函数。极小化过程中不是一次使 $M$ 中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。假设误分类点集合 $M$ 是固定的，那么损失函数 $L (w, b)$ 的梯度由

$\begin{aligned} \nabla_wL(w,b)&=-\sum_{x_i\in M}y_ix_i\\ \nabla_bL(w,b)&=-\sum_{x_i\in M}y_i \end{aligned}$

给出。随机选取一个误分类点 $x_i,y_i)$ ，对 $w, b$ 进行更新：

$\begin{aligned} w&\leftarrow w+\eta y_ix_i\\ b&\leftarrow b+\eta y_i \end{aligned}$

式中 $\eta(0<\eta\leq1)$ 是步长，在统计学习中又称为学习率（learning rate）。这样，通过迭代可以期待损失函数 $L (w, b)$ 不断减小，直到为0。

原始形式：

选取初值 $w_0,b_0$
在训练集中选取数据 $x_i,y_i)$
如果 $y_i(w\cdot x_i+b)\leq0$ ：
$\begin{aligned} w&\leftarrow w+\eta y_ix_i\\ b&\leftarrow b+\eta y_i \end{aligned}$
转至 2，直到训练集中没有误分类点

2.3.2 算法的收敛性

Novikoff 定理：设训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 是线性可分的，其中 $x_i\in\mathcal{X}=\mathbb{R}^n,y_i\in\mathcal{Y}=\{-1,+1\},i=1,2,\cdots,N$ ，则

存在满足条件 $\lVert\hat{w}\_{opt}\rVert=1$ 的超平面 $\hat{w}\_{opt}\cdot\hat{x}=w_{opt}\cdot+b_{opt}=0$ 将训练集完全正确分开；且存在 $\gamma>0$ ，对所有 $i=1,2,\cdots,N$ ：
$y_i(\hat{w}\_{opt}\cdot\hat{x}\_i)=y_i(w_{opt}\cdot x_i+b_{opt})\geq\gamma$
令 $R=\max_{1\leq i\leq N}\lVert \hat{x}\_i\rVert$ ，则感知机算法在训练集上的误分类次数 $k$ 满足不等式
$k\leq(\frac{R}{\gamma})^2$

2.3.3 感知机学习的对偶形式

将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式，通过求解其系数而求得 $w$ 和 $b$ 。逐步修改 $w, b$ ，设修改 $n$ 次，设 $\alpha_i=n_i\eta$ ，则最后学习到的 $w, b$ 可以分别表示为

$\begin{aligned} w&=\sum_{i=1}^{N}\alpha_iy_ix_i\\ b&=\sum_{i=1}^{N}\alpha_iy_i \end{aligned}$

这里， $\alpha_i\geq0,i=1,2,\cdots,N$ ，当 $\eta=1$ 时，表示第 $i$ 个实例点由于误分而进行更新的次数。实例点更新次数越多，意味着它距离分离超平面越近，也就越难正确分类。换句话说，这样的实例对学习结果影响最大。

对偶形式：

$\alpha\leftarrow0,b\leftarrow0$
在训练集中选取数据 $x_i,y_i)$
如果 $y_i(\sum_{j=1}^N\alpha_jy_jx_j\cdot x_i+b)\leq0$ ：
$\begin{aligned} \alpha_i&\leftarrow \alpha_i+\eta\\ b&\leftarrow b+\eta y_i \end{aligned}$
转至 2，直到训练集中没有误分类点

对偶形式中训练实例仅以内积的形式出现。为了方便，可以预先将训练集中的实例间的内积计算出来并以矩阵的形式存储，这个矩阵就是所谓的 Gram 矩阵（Gram matrix）

$G=[x_i\cdot x_j]_{N\times N}$

莯风

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【统计学习方法】第2章感知机

感知机（perceptron）是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取1和−1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习算法具有简单而易于实现的优点，分为原始形式和对偶形式。
复制链接

扫一扫