统计学习方法-2(感知机)

感知机:

  • 是二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别,取+1和-1。
  • 旨在求出将训练数据进行线性划分的分离超平面
  • 感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式

感知机模型

  • 感知机: f ( x ) = s i g n ( w ⋅ x + b ) f(x)=sign(w·x+b) f(x)=sign(wx+b)
    w 和 b w和b wb为感知机模型参数, w ϵ R n w\epsilon R^{n} wϵRn叫做权值权值向量 b ϵ R b\epsilon R bϵR叫做偏置 w ⋅ x w·x wx表示 w w w x x x的内积, s i g n sign sign是符号函数:
    s i g n ( x ) = { + 1 , x ≥ 0 − 1 , x < 0 sign(x)=\left\{\begin{matrix} +1, & x\geq 0 \\ -1, & x< 0 \\ \end{matrix}\right. sign(x)={+1,1,x0x<0

  • 几何解释:线性方程 w ⋅ x + b = 0 w·x+b=0 wx+b=0对应于特征空间中的一个超平面S,其中 w w w是超平面的法向量, b b b是超平面的截距。这个超平面将特征空间划分为两个部分,位于两部分的点(特征向量)分别被分为正、负两类。因此,超平面S称为分离超平面
    在这里插入图片描述

感知机学习策略

数据集的线性可分性

给定一个数据集T,如果存在某个超平面S能够将数据集的正负实例点完全正确地划分到超平面的两侧,即对所有 y i = + 1 y_{i}=+1 yi=+1的实例i,有 w ⋅ x + b > 0 w·x+b>0 wx+b>0,对所有 y i = − 1 y_{i}=-1 yi=1的实例i,有 w ⋅ x + b < 0 w·x+b<0 wx+b<0,则称数据集T为线性可分数据集;否则,称数据集T线性不可分。

感知机学习策略

为找到超平面,即确定感知机模型参数 w , b w,b w,b,需要确定一个学习策略,即定义损失函数并将损失函数最小化

  • 损失函数选择一:误分类点的总数,这样的损失函数不是参数 w , b w,b w,b的连续可导函数,不易优化
  • 损失函数选择二:误分类点到超平面S的总距离

输入空间中任一点 x 0 x_{0} x0到超平面S的距离:

  • 1 ∥ w ∥ ∣ w ⋅ x + b ∣ \frac{1}{\left\|w \right\|}|w\cdot x+b| w1wx+b
  • ∥ w ∥ \left\|w\right\| w w w w L 2 L_{2} L2范数

误分类点 x i x_{i} xi到超平面的距离:

  • − 1 ∥ w ∥ y i ∣ w ⋅ x + b ∣ -\frac{1}{\left\|w \right\|}y_{i}|w\cdot x+b| w1yiwx+b

假设超平面的误分类点集合为M,那么所有误分类点到拆排名的总距离:

  • − 1 ∥ w ∥ ∑ x i ϵ M y i ∣ w ⋅ x + b ∣ -\frac{1}{\left\|w \right\|}\sum_{x_{i}\epsilon M} y_{i}|w\cdot x+b| w1xiϵMyiwx+b
  • 不考虑 1 ∥ w ∥ \frac{1}{\left\|w \right\|} w1,就得到了感知机学习的损失函数

L ( w , b ) = − ∑ x i ϵ M y i ( w ⋅ x + b ) L(w,b)=-\sum_{x_{i}\epsilon M}y_{i}(w·x+b) L(w,b)=xiϵMyi(wx+b)

  • 这个损失函数就是感知机学习的经验风险函数
  • 在假设空间中选取使上述损失函数式最小的模型参数 w , b w,b w,b,即感知机模型

感知机学习算法

感知机学习问题转化为求解损失函数式最小化问题,最优化的方法是随机梯度下降法

感知机学习算法的原始形式

  • 采用随机梯度下降法

首先,任意选取一个超平面 w 0 , b 0 w_{0},b_{0} w0,b0,然后用随机梯度下降法不断地极小化目标函数。


极小化过程不是一次使M中所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降

在这里插入图片描述
随机选取一个误分类点 ( x i , y i ) (x_{i},y_{i}) (xi,yi),对 w , b w,b w,b进行更新:

在这里插入图片描述
η ( 0 < η ≤ 1 ) \eta(0< \eta \leq 1) η(0<η1)是步长,在统计学习中又被称为学习率。
在这里插入图片描述

算法的收敛性证明

感知机学习算法的对偶形式

基本想法:将 w , b w,b w,b表示为实例 x i x_{i} xi和标记 y i y_{i} yi的线性组合形式,通过求解其系数而得到 w , b w,b w,b


假设初始值 w 0 , b 0 w_{0},b_{0} w0,b0都为0,设修改n次, w , b w,b w,b关于 ( x i , y i ) (x_{i},y_{i}) (xi,yi)的增量分别是 α i y i x i 和 α i y i \alpha_{i}y_{i}x_{i}和\alpha_{i}y_{i} αiyixiαiyi,这里 α i = n i η \alpha_{i} = n_{i}\eta αi=niη
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

对偶形式中训练实例仅以内积的形式出现,为了方便,可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储,这个矩阵就是Gram矩阵

  • G = [ x i ⋅ x j ] N × N G=[x_{i}·x_{j}]_{N×N} G=[xixj]N×N
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值