【感知机】感知机(perceptron)学习算法知识点汇总

机器学习——感知机

感知机(perceptron)是一种二分类的线性模型,属于判别模型,也称为线性二分类器。输入为实例的特征向量,输出为实例的类别(取+1和-1)。可以视为一种使用阶梯函数激活的人工神经元,例如通过梅尔频率倒谱系数(MFCC)对语音进行分类或通过图像的像素值对图像进行分类。 


目录

感知机模型

感知机的几何解释

数据集的线性可分性

感知机学习策略

感知机学习算法

感知机学习算法的原始形式

感知机学习算法的对偶形式

算法的收敛性

感知机算法例题

感知机优缺点


感知机模型

定义 设输入空间(特征空间)\mathcal{X} \in \mathbb{R}^{n},输出空间\mathcal{Y}=\left \{ +1,-1 \right \}。输入x\in \mathcal{X}表示实例的特征向量,对应于输入空间的点,输出y\in\mathcal{Y}表示实例的类别,由输入空间到输出空间的函数f(x)=sign(w\cdot x+b)称为感知机

w,b为参数。w\in \mathbb{R}^{n}叫做权值或权值向量(weight vector),b叫作偏置(bias)

符号函数sign的功能是取某个数的符号

sign(x)=\left\{\begin{matrix}+1,x\geq 0 \\ -1,x<0 \end{matrix}\right.

感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器,即函数集合\left \{ f|f(x)=w\cdot x+b \right \}

感知机的几何解释

w\cdot x+b=0:对应特征空间\mathbb{R}^{n}中的一个超平面S,这个超平面将特征空间划分为两个部分,称为分离超平面(separating hyperplane)

b:超平面的截距

w:超平面的法向量

数据集的线性可分性

给定一个数据集T=\left \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N) \right \},其中x_i\in\mathbb{R}^{n},y_i\in\left \{ +1,-1 \right \},如果存在一个超平面w\cdot x+b=0,能够正确地划分所有正负实例点,则称数据集T为线性可分数据集(linearky separable data set),否则称其线性不可分.

感知机学习策略

假设训练数据集线性可分

学习目标:求得正确划分训练集中所有正负实例点的分离超平面

学习策略:1、确定一个损失函数。2、选取使损失函数最小的参数。


损失函数的选择:误分类点到分离超平面的距离

任一点x_0到超平面的距离公式\frac{1}{\left \| w \right \|}\left | w\cdot x_0+b \right |,其中\left \| w \right \|wL_2范数,

向量的L_2范数:向量各元素平方和的平方根

定理1:对于误分类数据(x_i,y_i),有y_i(w\cdot x_i+b)<0

从而由距离公式和定理1,得

误分类点x_i到超平面的距离公式-y_i\frac{1}{\left \| w \right \|} (w\cdot x_i+b ) 

实现了去掉绝对值的工作

所有误分类点到超平面的总距离- \frac{1}{\left \| w \right \|} \underset{x_i\in M}{\sum } y_i (w\cdot x_i+b ) ,M为误分类点集合

不必考虑\frac{1}{\left \| w \right \|},最终得到损失函数


损失函数L(w,b)=- \underset{x_i\in M}{\sum } y_i (w\cdot x_i+b ) 

一 个特定的样本点的损失函数:在误分类时是参数w,b的线性函数;在正确分类时是0。

因此,

 给定训练数据集T时,损失函数是w,b的连续可导函数

感知机学习算法

感知机学习算法的原始形式

输入:训练数据集T=\left \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N)\right \},其中x_i\in\mathbb{R}^{n},y_i\in\left \{ +1,-1 \right \},学习率\eta \left ( 0<\eta \leq 1 \right )

1.任意选取初值w_0,b_0

2.任意顺序遍历i,计算y_i (w\cdot x_i+b ),当y_i (w\cdot x_i+b )\leq 0,转到步骤3;若对任意iy_i (w\cdot x_i+b )> 0,转到输出

3. w\leftarrow w+\eta y_ix_i,   b\leftarrow b+\eta y_i,转到步骤2.

输出w,b;感知机f(x)=sign(w\cdot x+ b)

算法采用随机梯度下降法(stochastic gradient descent):

首先任意选取一个超平面,然后用梯度下降法极小化损失函数。极小化过程不是一次使所有误分类点的梯度下降,而是每次随机选取一个误分类点使其梯度下降。

设误分类点集合M固定,损失函数L(w,b)=- \underset{x_i\in M}{\sum } y_i (w\cdot x_i+b )的梯度为:

\bigtriangledown_wL(w,b)=-\underset{x_1\in M}{\sum}y_ix_i

\bigtriangledown_bL(w,b)=-\underset{x_1\in M}{\sum}y_i

对某点(x_i,y_i)w的梯度-y_ix_i是增大的方向,故w\leftarrow w+\eta y_ix_i使损失函数减少。

算法理解:当一个实例点被误分类时,则调整w,b的值,使分类超平面向该误分类点的一侧移动,减少该误分类点与超平面的距离,直至超平面越过该误分类点使其被正确分类

感知机学习算法的对偶形式

感知机学习算法的原始形式和对偶形式与支特向量机学习算法的原始形式和对偶形式相对应

输入:训练数据集T=\left \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N)\right \},其中x_i\in\mathbb{R}^{n},y_i\in\left \{ +1,-1 \right \},学习率\eta \left ( 0<\eta \leq 1 \right )

1.\alpha \leftarrow 0,b\leftarrow 0其中\alpha =(\alpha _1,\alpha _2,...,\alpha _n)^{T}

2.任意顺序遍历i,计算y_i (\sum_{j=1}^{N} \alpha _jy_jx_j\cdot x+ b),当y_i (\sum_{j=1}^{N} \alpha _jy_jx_j\cdot x+ b)\leq 0,转到步骤3;若对任意i​​​​​​​,y_i (w\cdot x_i+b )> 0,转到输出

3. \alpha_i\leftarrow \alpha_i+\eta,   b\leftarrow b+\eta y_i,转到步骤2

输出\alpha ,b;感知机f(x)=sign(\sum_{j=1}^{N} \alpha _jy_jx_j\cdot x+ b)

对偶形式的基本想法:将wb表示为实例x_i和标记y_i的线性组合的形式,通过求解其系数来求解wb

基于原始形式,可设 w_0=0,b_0=0,则迭代n次后,设第I个实例点由于误分而更新的次数为n_i,令\alpha_i=n_i\eta,有w=\sum_{i=1}^{N}\alpha_iy_ix_i,b=\sum_{i=1}^{N}\alpha_iy_i

注意:实例点更新次数越多,意味着它离分离超平面越近,意味着越难分类。这样的实例点对于学习结果的影响最大。

Gram矩阵:对偶形式中的训练实例仅以内积的形式出现,将实例间的内积计算出来并以矩阵的形式储存,G=[x_i\cdot x_j]_{N\times N},称为Gram矩阵

算法的收敛性

算法原始形式收敛:意味着经过有限次迭代可得到一个将训练数据集完全正确划分的分离超平面

为便于推导,记\hat{w}=(w^{T},b)^{T},扩充输入向量,记\hat{x}=(x^{T},1)^{T},则有\hat{w}\in\mathbb{R}^{n+1},\hat{x}\in\mathbb{R}^{n+1}\hat{w}\cdot\hat{x}=w\cdot x+b

(Novikoff)定理 设训练集T=\left \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N) \right \}线性可分,其中x_i\in\mathbb{R}^{n},y_i\in\left \{ +1,-1 \right \},则:

(1)存在满足\left \| \hat{w} \right \|=1的超平面\hat{w}\cdot\hat{x}=w\cdot x+b=0将训练数据集完全正确分开,且存在\gamma >0,对所有i=1,2,...,N,

y_i(\hat{w}\cdot\hat{x})=y_i(w\cdot x_i+b)\geq \gamma

(2)令R=\underset{1\leq i\leq N }{max}\left \| \hat{x_i} \right \|,则感知机学习算法在训练数据集上的误分类次数k满足不等式

k\leq (\frac{R}{\gamma })^{2}

定理表明,当训练数据集线性可分时,经过有限次搜索可以找到将训练数据集完全正确分开的超平面,即算法的原始形式收敛。

感知机算法例题

例1 训练数据集如图所示,正实例点为x_1=(3,3)^{T},x_2=(4,3)^{T},负实例点为x_3=(1,1)^{T},试用感知机算法原始形式求感知机模型,令w=(w^{(1)},w^{(2)})^{T},x=(x^{(1)},x^{(2)})^{T}

解答:

(1)建模最优化问题:\underset{w,b}{min}L(w,b)= - \underset{x_i\in M}{\sum } y_i (w\cdot x_i+b )

(2)取初值w_0=0,b_0=0\eta =1 

(3)按x_1,x_2,x_3顺序,对x_1=(3,3)^{T},y_1(w\cdot x1+b )= 0,则x_1为误分类点。更新w,b

w_1=w_0+y_1x_1=(3,3)^{T},b_1=b_0+\eta y_1=1

得到线性模型:w_1\cdot x+b_1=3x^{(1)}+3x^{(2)}+1=0

(4)重新选取,对x_1,x_2y_i(w_1\cdot x_i+b_1)>0,则均为正确分类点,不更新w,b

x_3=(1,1)^{T}y_3(w_1\cdot x_3+b_1)< 0,则x_3为误分类点,更新w,b

w_2=w_1+y_3x_3=(2,2)^{T},b_2=b_1+\eta y_3=0​​​​​​​

得到线性模型:w_2\cdot x+b_2=2x^{(1)}+2x^{(2)}=0

(5)由此不断迭代

(6)直到w_7=(1,1)^{T},b_7=-3​​​​​​​

线性模型:w_7\cdot x+b_7=x^{(1)}+x^{(2)}-3=0

对所有数据点y_i(w_1\cdot x_i+b_1)>0,则确定分离超平面:x^{(1)}+x^{(2)}-3=0

感知机模型f(x)=sign(x^{(1)}+x^{(2)}-3)

分离超平面x^{(1)}+x^{(2)}-3=0是按照x_1,x_3,x_3,x_3,x_1,x_3,x_3的取点顺序得到的

例1如果更换取点顺序为x_1,x_3,x_3,x_3,x_2,x_3,x_3,x_3,x_1,x_3,x_3,得到的分离超平面为:

2x^{(1)}+x^{(2)}-5=0

由此,可知结论:感知机算法采用不同的初值或选取不同的误分类点顺序,解可以不同

例2 训练数据集如图所示,正实例点为x_1=(3,3)^{T},x_2=(4,3)^{T},负实例点为x_3=(1,1)^{T},试用感知机算法对偶形式求感知机模型,令w=(w^{(1)},w^{(2)})^{T},x=(x^{(1)},x^{(2)})^{T}

解答:

(1)取\alpha_1=0,i=1,2,3,b=0,\eta =1;

(2)计算Gram矩阵

G=\begin{bmatrix} 18 & 21 &6 \\ 21& 25&7 \\ 6 & 7 & 2 \end{bmatrix}

(3)误分条件

y_i (\sum_{j=1}^{N} \alpha _jy_jx_j\cdot x+ b)\leq 0

(4)参数更新

\alpha_i\leftarrow \alpha_i+1,b\leftarrow b+y_i

(5)迭代

(6)最终得到

w=\alpha_1x_1+\alpha_2x_2+\alpha_3x_3=2x_1+0x_2+5x_3=(1,1)^{T}

b=-3

则,分离超平面:x^{(1)}+x^{(2)}-3=0

感知机模型:f(x)=sign(x^{(1)}+x^{(2)}-3)

与原始形式一致,感知机学习算法的对偶形式迭代收敛,且存在多个解

感知机优缺点

优点:简单、易于实现、运行速度快

缺点:仅处理线性可分问题,面对多类别多分类问题需要多个分类器导致训练成本增加

在例题的实际操作中可以发现,感知机学习算法存在许多解,这些解既依赖于初值的选择,也依赖于选代过程中误分类点的选择顺序。而为了得到唯一的超平面,需要对分离超平面增加约束条件,这就涉及到了线性支持向量机的想法。

  • 79
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

F_D_Z

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值