SVM的支持向量、非线性求解以及对偶问题下的推导过程

本文深入探讨支持向量机(SVM)的概念,从线性可分情况下的最大间隔划分,解释支持向量的重要性,到非线性情况下的软间隔和核函数的引入。通过讨论原问题和对偶问题,展示了如何在未知高维映射函数的情况下求解SVM。最后,文章介绍了优化过程和KKT条件,为理解和应用SVM提供了全面的视角。
摘要由CSDN通过智能技术生成

支持向量

线性可分:

​ 一个线性可分的训练集是指:存在超平面(w,b)对于(Xi,Yi)有:若Y~i = 1, 则wX~i + b >= 0 ;若Y~i = -1, 则wX~i + b < 0 .

​ 这种形式标示在几何中就是存在一个平面将 训练集 进行切分,使得切分后的两侧属于两个不同的分类

在这里插入图片描述

哪种划分是我们要找的:

​ 在上图中直觉告诉我们是蓝色的,原因可以用容错率来说明,如下图所示,在误差允许情况下,蓝色线的分类的表现是最佳的.也就是找与两侧间隔最大的

在这里插入图片描述

间隔:

在这里插入图片描述

​ 将蓝色的线平行移动,与两中分类相交第一次相交的位置的交点就是支持向量,后续的向量是不被考虑的,所以也等价于说两侧的支持向量的中间位置就决定了蓝色分类线的位置.点到平面的距离公式
在这里插入图片描述

其中公式中的平面方程为Ax+By+Cz+D=0,点P的坐标(x0,y0,z0),d为点P到平面的距离。

​ 也就是说对于wT*x + b = 0这个平面:
d = ∣ w T X o + b ∣ / ∣ ∣ w ∣ ∣ d = |wTXo + b| / ||w|| d=wTXo+b/w
由于向量wTX的乘积是一个数,所以d的分子部分结果一定是一个数c1,又因为
w T ∗ X o + b = 0 和 a ∗ w T ∗ X o + a ∗ b = 0 是 同 一 个 平 面 wT*Xo + b = 0 和 a*wT*Xo + a * b = 0 是同一个平面 wTXo+b=0awTXo+ab=0
所以可以通过缩放求得在支持向量上 wTXo + b = 1,即:
d = 1 / ∣ ∣ w ∣ ∣ d = 1 / ||w|| d=1/w
也就是说目标最大化d变为:最小化 ||w||²,方便求导的话也等价于 1/2 * ||w||²

支持向量机的数学描述:

​ 基于线性可分可写为:

  • 已知Xi和Yi:

  • 前提条件:线性可分

  • 求 w 和 b,其中w是一个向量,与X~i是同维度的

  • 目标:最小化
    1 / 2 ∗ ∣ ∣ w ∣ ∣ ² 1/2 * ||w||² 1/2w²

  • 限制条件:
    y i [ w T ∗ x i + b ] > = 1 yi [ w T*xi + b] >= 1 yi[wTxi+b]>=1

  • 当限制条件取等式时,求的X~i是支持向量,后续的距离都大于支持向量

  • Y~i只能是+1 或者 -1

在这里插入图片描述

非线性的情况

非线性可分条件的变化:

​ 在非线性的情况下可以通过给平面的切分增加一个松弛的变量,或者说可以给一个大的允许误差,这个误差设为ξi,数学描述如下:

  • 最小化:
    1 / 2 ∗ ∣ ∣ w ∣ ∣ ² + C ∑ i = 1 n ξ i 1/2*||w||² + C \sum_{i=1}^n\xi i 1/2w²+Ci=1nξi

  • 相对应的限制条件改为:
    ξ i > = 0 ( ξ i < 0 就 不 是 对 条 件 进 行 松 弛 了 ) ξi>=0 (ξi<0就不是对条件进行松弛了) ξi>=0(ξi<0)

    y i [ w T ∗ x i + b ] > = 1 − ξ i yi [ w T*xi + b] >= 1 -\xi i yi[wTxi+b]>=1ξi

  • 求的变量是 w,b,ξi

  • ξi:这个增加的松弛变量,也就是正则项的一部分,所起到的作用是将原本非线性可分的情况,通过松弛-这种软间隔的方式将限制条件可以放的更宽松(我的理解是可能在k维时候绝大部分已经被线性分开,只有少量的离散的点可能不符合线性可分,但是此时通过减少约束使得它满足而不必再更高的过度拟合),使得原本非线性可分的情况下"近似于"线性可分. 极端条件下当ξi无线大的时候,1-ξi无线小,限制条件总是可以被满足的.

  • C:C是ξi的常数系数,可以对w和ξi的比例进行缩放,这样可以通过给ξi一个适当的惩罚系数使得最小化整个式子的过程中ξi不至于过大

近似还是去更高维度求解

在这里插入图片描述

​ 在非线性的情况下,支持向量机没有去寻找一种当前维度下近似的平面或曲面,而是将目光转向更高维度. 因为在近似无限维度的情况下,任意选取特征的训练集都是线性可分的,所以SVM首先将原训练集的x利用一个函数例如ψ(x)映射到更高的维度甚至是无限维度,然后进行线性可分的求解

数学描述

​ 将以上两点做一个简单的综合我们可以做出如下非线性高维的求解描述:

  • 最小化
    1 / 2 ∗ ∣ ∣ w ∣ ∣ ² + C ∑ i = 1 n ξ i 1/2*||w||² + C \sum_{i=1}^n\xi i 1/2w²+Ci=1nξi

  • 代入ψ(x)限制条件变为:
    ξ i > = 0 ξi>=0 ξi>=0

    y i [ w T ∗ ψ ( x i ) + b ] > = 1 − ξ i yi [ w T*ψ(xi) + b] >= 1 -\xi i yi[wTψ(xi)+b]>=1ξi

问题

​ 但是这种方法是存在以下问题的:ψ(x)在高纬度甚至是无限维度下是不可知的,这里需要利用到后面的核函数,它有一个很重要的表达式如下
K ( x 1 , x 2 ) = ψ ( x 1 ) T ∗ ψ ( x 2 ) K(x1,x2) = ψ(x1)T *ψ(x2) K(x1,x2)=ψ(x1)Tψ(x2)
这样我们就有可能在不知道ψ(x)的显示表达式的条件下通过K(x1,x2)来替换ψ(x)进行优化

对偶问题

原问题与对偶问题

原问题:

  • 最小化:f(w)

  • 限制条件:
    g i ( w ) ≤ 0 gi(w)≤0 gi(w)0

    h i ( w ) = 0 hi(w)=0 hi(w)=0

定义:
L ( w , α , β ) = f ( w ) + ∑ i = 1 k α i ∗ g i ( w ) + ∑ j = 1 m α i ∗ h i ( w ) L(w,\alpha,\beta) = f(w) + \sum_{i=1}^k \alpha i *gi(w) + \sum_{j=1}^m \alpha i * hi(w) L(w,αβ)=f(w)+i=1kαigi(w)+j=1mαihi(w)

等 价 于 L ( w , α , β ) = f ( w ) + α T ∗ g ( w ) + β T ∗ h ( w ) 等价于 L(w,\alpha,\beta) = f(w) + \alpha T*g(w) + \beta T* h(w) L(w,α,β)=f(w)+αTg(w

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值