统计学习方法第二章——感知机

YakultGo

已于 2022-04-26 17:03:24 修改

阅读量393

点赞数

分类专栏：统计学习方法文章标签：机器学习

于 2022-04-26 17:01:22 首次发布

本文链接：https://blog.csdn.net/weixin_43869610/article/details/124432138

版权

统计学习方法专栏收录该内容

13 篇文章

订阅专栏

2.1 感知机模型

形如 $f(X)=sign(w\cdot x+b)$ 的函数称为感知机，其中w和b为感知机模型参数，w叫作权值，b叫作偏置， $w\cdot x$ 表示w和x的内积。sigh是符号函数，即
$\operatorname{sign}(x)= \begin{cases}+1, & x \geqslant 0 \\ -1, & x<0\end{cases}$
感知机有如下几何解释：线性方程 $w\cdot x+b=0$ 对应于特征空间中的一个超平面S，其中w是超平面的方向量，b是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点分别称为正、负两类。因此，超平面S称为分离超平面，如下图所示。

2.2 感知机学习策略

首先空间中任一点 $x_0$ 到超平面的S的距离为：
$\frac{1}{\|w\|}\left|w \cdot x_{0}+b\right|$
这里, $\|w\|$ 是 $w$ 的 $L_{2}$ 范数。(不知道怎么得出来的可以点这里)

这样，假设超平面S的误分类点集合为M，那么所有误分类点到超平面S的总距离为
$-\frac{1}{||w||}\sum_{x_i\in M}y_i(w\cdot x_i+b)$
不考虑前面的系数，就得到感知机学习的损失函数
$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$
其中M为误分类点的集合，并且损失函数就是感知机学习的经验风险函数。

2.3 感知机学习算法

2.3.1 感知机学习算法的原始形式

求参数w,b，使其为一下损失函数极小化问题的解
$\min _{w, b} L(w, b)=-\sum_{x_{i} \in M} y_{i}\left(w \cdot x_{i}+b\right)$
其中 $M$ 为误分类点的集合。那么损失函数 $L (w, b)$ 的梯度由以下式子给出
$\begin{gathered} \nabla_{w} L(w, b)=-\sum_{x_{i} \in M} y_{i} x_{i} \\ \nabla_{b} L(w, b)=-\sum_{x_{i} \in M} y_{i} \end{gathered}$
随机选取一个误分类点 $x_i,y_i)$ ，对w，b进行更新：
$w\leftarrow w+\eta y_ix_i\\ b\leftarrow b+\eta y_i$
其中 $\eta$ 是步长，又可以叫为学习率(learing rate)。接下来看一个例子

2.3.2 算法的收敛性

为了便于叙述和推导，将偏置b并入权重向量w，记作 $\hat{w}=(w^T,b)^T$ ，同样也将输入向量加以扩充，加进常数1，记作 $\hat{x}=(x^T,1)^T$ 。显然， $\hat{w}\cdot \hat{x}=w\cdot x+b$

Novikoff定理( 1 ) 存在满足条件 $\left\|\hat{w}_{\mathrm{opt}}\right\|=1$ 的超平面 $\hat{w}_{\mathrm{opt}} \cdot \hat{x}=w_{\mathrm{opt}} \cdot x+b_{\mathrm{opt}}=0$ 将训练数据集完全正确分开; 且存在 $\gamma>0$ , 对所有 $\cdots, N$
$y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{\mathrm{opt}}\right) \geqslant \gamma$
( 2 ) 令 $R=\underset{1\leqslant i\leqslant N}{max}\left\|\hat{x}_{i}\right\|$ , 则感知机算法 $2.1$ 在训练数据集上的误分类次数 $k$ 满足不等式
$\leqslant\left(\frac{R}{\gamma}\right)^{2}$
证明 (1) 由于训练数据集是线性可分的, 按照定义 $2.2$ , 存在超平面可将训练数据集完全正确分开, 取此超平面为 $\hat{w}_{\mathrm{opt}} \cdot \hat{x}=w_{\mathrm{opt}} \cdot x+b_{\mathrm{opt}}=0$ , 使 $\left\|\hat{w}_{\mathrm{opt}}\right\|=1$ 。由于对有限的 $\cdots, N$ , 均有
$y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{\mathrm{opt}}\right)>0$
所以存在
$\gamma=\min _{i}\left\{y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{\mathrm{opt}}\right)\right\}$
使
$y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{\mathrm{opt}}\right) \geqslant \gamma$
(2)第一个不等式 $\hat{w_k}\cdot \hat{w}_{opt}\geqslant k\eta \gamma$ 书上给出的过程已经很详细了，这边就不证明了，主要是补充一下第二个不等式的证明。
$\begin{aligned} \left\|\hat{w}_{k}\right\|^{2} &=\left\|\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}\right\|^{2} \\ &=\left\|\hat{w}_{k-1}\right\|^{2}+2 \eta y_{i} \hat{w}_{k-1} \bullet \hat{x}_{i}+\eta^{2} y_{i}^{2}\left\|\hat{x}_{i}\right\|^{2} \\ &=\left\|\hat{w}_{k-1}\right\|^{2}+2 \eta y_{i} \hat{w}_{k-1} \bullet \hat{x}_{i}+\eta^{2}\left\|\hat{x}_{i}\right\|^{2} \\ & \leq\left\|\hat{w}_{k-1}\right\|^{2}+\eta^{2}\left\|\hat{x}_{i}\right\|^{2} \leq\left\|\hat{w}_{k-1}\right\|^{2}+\eta^{2} R^{2} \\ & \leq\left\|\hat{w}_{k-2}\right\|^{2}+2 \eta^{2} R^{2} \leq \cdots \leq k \eta^{2} R^{2} \end{aligned}$
上式中的等号变为小于等于号，是因为第k类在开头就已经假设为误分类的因此 $2\eta y_i \hat{w}_{k-1}\cdot \hat{x}_i$ 这一项是负的，所以不等式成立。结合两个不等式得到如下
$\begin{aligned} &k \eta \gamma \leqslant \hat{w}_{k} \cdot \hat{w}_{\mathrm{opt}} =\left\|\hat{w}_{k}\right\|\left\|\hat{w}_{\mathrm{opt}}\right\| cos\theta \leqslant\left\|\hat{w}_{k}\right\|\left\|\hat{w}_{\mathrm{opt}}\right\| \leqslant \sqrt{k} \eta R \\ &k^{2} \gamma^{2} \leqslant k R^{2} \end{aligned}$
于是
$\leqslant\left(\frac{R}{\gamma}\right)^{2}$