统计学习方法·笔记·第二章感知机

最新推荐文章于 2024-08-11 02:00:50 发布

Moon00zz

最新推荐文章于 2024-08-11 02:00:50 发布

阅读量137

点赞数

分类专栏：读书笔记文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43893126/article/details/103923581

版权

读书笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

第2章感知机（perceptron）

感知机是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别，取+1和-1二值。

感知机模型

$f(x)=sign(w\cdot x+b)$
$w\epsilon R^n$ 叫做权值（weight）或权值向量（weight vector）， $b\epsilon R$ 叫做偏置（bias）。 $w\cdot x$ 表示w与x的内积。
$sign(x)=\left\{\begin{matrix}+1 &,x\geqslant 0 \\ -1 &,x<0 \end{matrix}\right.$
感知机只对线性可分数据集（linearly separable data set）有效。

感知机的学习策略

损失函数的选择：一个自然的选择是误分类的总数。但是，这样的损失函数不是参数w，b的连续可导函数，不宜优化。另一个选择是误分类点到超平面S的总局和。
输入空间 $R^n$ 中任意一点 $x_0$ 到超平面S的距离：（二维推导可采用两个直角三角形面积相等）
$\frac{1}{\left \| w \right \|}\left | w\cdot x_0+b \right |$
$\left \| w \right \|$ 是w的 $L_2$ 范数。
对于误分类的数据 $x_i,y_i）$ 来说(去掉绝对值，考虑符号正负)，误分类点到S的距离为：
$-\frac{1}{\left \| w \right \|}y_i\left ( w\cdot x_i+b \right )$
设误分点集合为M，所有误分点到S平面的总距离为：
$-\frac{1}{\left \| w \right \|}\sum_{x_i\epsilon M}y_i\left ( w\cdot x_0+b \right )$
不考虑 $\frac{1}{\left \| w \right \|}$ ，就得到感知机损失函数。
为什么可以不考虑 $\frac{1}{\left \| w \right \|}$ ？
1、 $\frac{1}{\left \| w \right \|}$ 不影响 $y_i\left ( w\cdot x_0+b \right )$ 正负的判断，因此不影响算法的中间过程。感知机是被误分类驱动的。
2、 $\frac{1}{\left \| w \right \|}$ 不影响最终的学习结果。感知机最终期望的结果是所有点被正确分类，即 $-\frac{1}{\left \| w \right \|}\sum_{x_i\epsilon M}y_i\left ( w\cdot x_0+b \right )$ 的分子部分为零。可以看出 $\frac{1}{\left \| w \right \|}$ 不影响最终结果。
所以，感知机损失函数定义为：
$L(x,b)=-\sum_{x_i\epsilon M}y_i\left ( w\cdot x_0+b \right )$

感知机学习算法

感知机问题转化为求解损失函数的最优化问题，最优化的方法是随机梯度下降法。

感知机学习算法的原始形式

首先，任意选取一个超平面 $w_0,b_0$ ，然后用梯度下降法不断极小化目标函数。极小化过程中不是一次使M中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。
（感知机学习算法是对上述损失函数进行极小化，求得w和b。但是用普通的基于所有样本的梯度和的均值的批量梯度下降法（BGD）是行不通的，原因在于我们的损失函数里面有限定，只有误分类的M集合里面的样本才能参与损失函数的优化。所以我们不能用最普通的批量梯度下降,只能采用随机梯度下降（SGD））
假设误分类点集合M是固定的，那么损失函数 $L (x, b)$ 的梯度为：
$\bigtriangledown_wL(w,b)=-\sum_{x_i\epsilon M}y_ix_i$
$\bigtriangledown_bL(w,b)=-\sum_{x_i\epsilon M}y_i$
随机选取一个误分类点 $x_i,y_i)$ ，对w，b进行更新。
$w\leftarrow w+\eta y_ix_i$
$b\leftarrow w+\eta y_i$
$\eta$ ，( $0<\eta \leq 1$ )是步长又称为学习速率（learning rate）。

算法步骤：（感知机学习算法的原始形式）
输入：悬链数据集 $T =\{ {(x_1,y_1),(x_2,y_2),...(x_N,y_N)}\}$ ，其中 $x_i\epsilon\chi= R^n$ ， $y_i \epsilon\{-1,+1\},i=1,2,...,N$ ;学习率 $\eta$ ( $0<\eta \leq 1$ )；
输出：w,b;感知机模型 $f(x)=sign(w\cdot x+b)$ 。
（1）选取初值 $w_0,b_0$ ;
（2）在训练数据集中选取数据 $x_i,y_i)$ ;
（3）如果 $y_i\left ( w\cdot x_i+b \right )\leq0$ ,
$w\leftarrow w+\eta y_ix_i$
$b\leftarrow w+\eta y_i$
（4）转至（2），直至训练集中没有误分类点。
感知机学习算法由于采用不同的初值或选取不同的误分类点，解可以不同。

感知机学习算法的对偶形式

对偶形式的基本想法是，将w，b表示为实习 $x_i$ 和 $y_i$ 的线性组合形式，通过求解其系数而求得的w和b。
在原始算法的基础上，不失一般性，可以假设初始值选取初值 $w_0,b_0$ 均为0。对误分点通过
$w\leftarrow w+\eta y_ix_i$
$b\leftarrow w+\eta y_i$
逐步修改w，b，设修改n次，最后学习到的w，b可以表示为：
$w=\sum_{i=1}^{N}\alpha_iy_ix_i$
$b=\sum_{i=1}^{N}\alpha_iy_i$
$\alpha_i=n_i\eta$

算法：（感知机学习的对偶形式）
输入：悬链数据集 $T =\{ {(x_1,y_1),(x_2,y_2),...(x_N,y_N)}\}$ ，其中 $x_i\epsilon\chi= R^n$ ， $y_i \epsilon\{-1,+1\},i=1,2,...,N$ ;学习率 $\eta$ ( $0<\eta \leq 1$ )；
输出：w,b;感知机模型 $f(x)=sign(\sum_{i=1}^{N}\alpha_iy_ix_i\cdot x+b)$ 。其中 $\alpha =(\alpha_{1},\alpha_{2},...,\alpha_{N})^{T}$ 。
（1） $\alpha \leftarrow 0,b\leftarrow 0$ ;
（2）在训练数据集中选取数据 $x_i,y_i)$ ;
（3）如果 $y_i\left (\sum_{i=1}^{N}\alpha_iy_ix_i\cdot x_i+b \right )\leq0$ ,
$\alpha_{i}\leftarrow \alpha_{i}+\eta$
$b\leftarrow b+\eta y_i$
（4）转至（2），直至训练集中没有误分类点。
对偶形式中训练实例仅以内积的形式出现。为了方便，可以预先将悬链集中实例内积计算出来，并以矩阵的形式储存，这个矩阵就是Gram矩阵。
$G=\left[x_i\cdot x_j\right]_{N \times N}$

原始形式和对偶形式的选择

在向量维数（特征数）过高时，计算内积非常耗时，应选择对偶形式算法加速。
在向量个数（样本数）过多时，每次计算累计和就没有必要，应选择原始算法

算法的收敛性

当训练数据集线性可分时，感知机学习算法原始形式和对偶形式的迭代是收敛的，存在多个解。

Moon00zz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法·笔记·第二章感知机

第2章感知机（perceptron）感知机是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机模型f(x)=sign(w⋅x+b)f(x)=sign(w\cdot x+b)f(x)=sign(w⋅x+b)wϵRnw\epsilon R^nwϵRn叫做权值（weight）或权值向量（weight vector），bϵRb\epsilon RbϵR叫做偏置...
复制链接

扫一扫