支持向量机

数学描述

d:间隔(margin)最大化
将平行线擦到的向量叫支持向量(Support Vectors)

定义

①训练数据及标签(X_1,y_1),(X_2,y_2)...(X_N,y_N),其中X_i是向量,X_1=\begin{bmatrix} x_{11}\\ x_{12}\\ ...\\ x_{1m} \end{bmatrix}y_i是标签,y_i=+1或-1
②线性模型:(W,b)    W^TX+b=0(超平面),W是一个向量,W=\begin{bmatrix} W_{1}\\ W_{2}\\ ...\\ W_{m} \end{bmatrix},b是一个常数
我们要干的事:用所有的①算出②中的W和b
③一个训练集线性可分是指:
\left \{ (X_i,y_i)\right \}_{i=1...N}\exists (W,b),使:
\forall i=1...N,有
⒈若y_i=+1,则W^TX_i+b\geq 0
⒉若y_i=-1W^TX_i+b< 0
综合上式为:y_i[W^TX_i+b]\geq 0(公式1)

优化问题(凸优化/二次规划)

最小化:\frac{1}{2}||W||^2
限制条件:y_i[W^TX_i+b]\geq 1  (i=1...N)

事实1:W^TX+b=0aW^TX+ab=0是同一个平面,a\in R^+
若(W,b)满足公式1,则(aW,ab)也满足公式1
事实2:点到平面的距离公式
平面:W_1x+W_2y+b=0
(X_0,y_0)到此平面的距离:d=\frac{|W_1x_0+W_2y_0+b|}{\sqrt{W_1^2+W_2^2}}
向量X_0到超平面W^TX+b=0的距离d=\frac{|W^TX+b|}{||W||},||W||=\sqrt{W_1^2+W_2^2+...+W_m^2}
我们可以用a去缩放(W,b)→(aW,ab)
最终使在支持向量X_0上有:|W^TX_0+b|= 1,此时支持向量与平面距离d=\frac{1}{||W||}
因此最小化||W||^2就是最大化d

二次规划

①目标函数是二次项
②限制条件是一次项
要么无解,要么只有一个极值

SVM处理非线性

一、最小化 \frac{1}{2}||W||^2+C\sum_{i=1}^{N}\xi _i(i=1~N),其中\xi _i为松弛变量,C\sum_{i=1}^{N}\xi _i为正则项,C是事先设定的参数
限制条件:
y_i[W^TX_i+b]\geq 1-\xi _i
\xi _i\geq 0

二、高维映射\varphi (x)
X_1=\begin{bmatrix} 0\\ 0 \end{bmatrix}\in C_1X_2=\begin{bmatrix} 1\\ 1 \end{bmatrix}\in C_1X_3=\begin{bmatrix} 1\\ 0 \end{bmatrix}\in C_2X_4=\begin{bmatrix} 0\\ 1 \end{bmatrix}\in C_2
\varphi (X):X=\begin{bmatrix} a\\ b \end{bmatrix}\overset{\varphi }{\rightarrow}\varphi (X)=\begin{bmatrix} a^2\\ b^2\\ a\\ b\\ ab \end{bmatrix}
\varphi (X_1)=\begin{bmatrix} 0\\ 0\\ 0\\ 0\\ 0 \end{bmatrix}\in C_1\varphi (X_2)=\begin{bmatrix} 1\\ 1\\ 1\\ 1\\ 1 \end{bmatrix}\in C_1\varphi (X_3)=\begin{bmatrix} 1\\ 0\\ 1\\ 0\\ 0 \end{bmatrix}\in C_2\varphi (X_4)=\begin{bmatrix} 0\\ 1\\ 0\\ 1\\ 0 \end{bmatrix}\in C_2
W=\begin{bmatrix} -1\\ -1\\ -1\\ -1\\ 6 \end{bmatrix},b=1
\varphi (X)是无限维。
我们可以不知道无限维映射\varphi (X)的显式表达,我们只要知道一个核函数K(X_1,X_2)=\varphi (X_1)^T\varphi (X_2)\varphi (X_1)\varphi (X_2)两个无限维向量内积
则①这个优化式任然可解。

核函数

K(X_1,X_2)=e^{-\frac{||X_1-X_2||^2}{2\tau ^2}}(高斯核)
K(X_1,X_2)=(X_{1}^{T}+1)^d(多项式核,d为多项式阶数)

K(X_1,X_2)能写成\varphi (X_1)^T\varphi (X_2)的充要条件:
K(X_1,X_2)=K(X_2,X_1)(交换性)
\forall C_i,X_i(i=1...N)有:\sum_{i=1}^{N}\sum_{j=1}^{N}C_iC_jK(X_i,X_j)\geqslant 0(半正定性)

优化理论

原问题(非常普适)

最小化:f(\omega )
限制条件:g_i(\omega)\leqslant 0(i=1...k)h_i(\omega)=0(i=1...M)

对偶问题

①定义:L(\omega ,\alpha ,\beta )
=f(\omega )+\sum_{i=1}^{K}\alpha _ig_i(\omega )+\sum_{i=1}^{M}\beta _ih_i(\omega )
=f(\omega )+\alpha ^Tg(\omega )+\beta ^Th(\omega )
其中
g(\omega )=\begin{bmatrix} g_1(\omega )\\ g_2(\omega )\\ ...\\ g_K(\omega ) \end{bmatrix}h(\omega )=\begin{bmatrix} h_1(\omega )\\ h_2(\omega )\\ ...\\ h_M(\omega ) \end{bmatrix}
②对偶问题定义
最大化:\theta (\alpha ,\beta )=inf\left \{ L(\omega ,\alpha ,\beta ) \right \},其中inf是指在遍历所有w的情况下L的最小值
限制条件:\alpha _i\geqslant 0(i=1...K)

定理:如果\omega^*是原问题的解,而\alpha ^*,\beta ^*是对偶问题的解,则有f(\omega ^*)\geqslant \theta (\alpha ^*,\beta ^*)

定义:G=f(\omega ^*)-\theta (\alpha ^*,\beta ^*)\geqslant 0,G叫做原问题与对偶问题的间距
对于某些特定优化问题,可以证明G=0
强对偶定理:若f(\omega )为凸函数,且g(\omega )=A\omega +b,h(\omega )=C\omega +d
则此优化问题的原问题与对偶问题间距为0,即f(\omega ^*)=\theta (\alpha ^*,\beta ^*)
\forall i=1...K(KKT条件)
或者\alpha ^*_i=0
或者g ^*_i(\omega ^*)=0

②拉格朗日乘子法: 拉格朗日乘子法是一种将约束优化问题转换为无约束优化问题的方法。它通过引入一组新的变量(拉格朗日乘子)来构造一个拉格朗日函数,该函数包含了原始问题的目标函数和约束条件。为了求解这个优化问题,可以使用拉格朗日乘子法。对于每个样本点(x_i,y_i),引入一个拉格朗日乘子\alpha _i\geq 0。定义拉格朗日函数L(w,b,\alpha )为:

L(w,b,\alpha )=\frac{1}{2}||w||^2-\sum_{i=1}^{N}\alpha _i(y_i(w\cdot x_i+b)-1)

其中,N 是样本数量。

③对偶问题:在优化问题中,通常有一个原始问题和一个对偶问题。原始问题是最初要解决的问题,它包含了一组决策变量、目标函数以及约束条件。对偶问题是通过应用拉格朗日乘子法得到的,它提供了原始问题的一个下界(对于最小化问题)。 通过对拉格朗日函数分别对wb求偏导并令其为0,可以得到对偶问题。对偶问题通常更容易求解,并且可以引入核函数来处理非线性问题。对偶问题中的目标函数是:

W(\alpha )=\sum_{i=1}^{N}\alpha _i-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=i}^{N}\alpha _i\alpha _jy_iy_jx_i\cdot x_j

需要满足的约束条件是:\sum_{i=1}^{N}\alpha _iy_i=0
\alpha _i\geq 0,i=1,2,...,N

④KKT条件: Karush-Kuhn-Tucker (KKT) 条件是解决对偶问题时必须满足的约束。这些条件包括原始问题的约束和拉格朗日乘子的非负性。KKT条件提供了一种检查某个解是否为优化问题最优解的方法。如果一个解满足KKT条件,那么它至少是一个局部最优解。在特定条件下(如问题为凸优化问题),KKT条件也是全局最优解的必要条件。

KKT条件由几个关键部分组成,包括:

  • 梯度条件(Stationarity):原始问题的目标函数的梯度与对偶问题的拉格朗日乘子有关,这确保了在最优解处,原始问题的目标函数在可行方向上的变化为零。
  • 原始可行性(Primal Feasibility):最优解必须满足原始问题的所有约束条件。
  • 对偶可行性(Dual Feasibility):对偶问题中的拉格朗日乘子必须满足一定的条件,例如对于不等式约束,乘子必须非负。
  • 互补松弛条件(Complementary Slackness):这涉及到原始问题的约束和对偶问题的乘子之间的关系,确保在最优解处,任何活跃的约束都与其对应的拉格朗日乘子相乘等于零。

⑤优化算法: 求解对偶问题通常需要使用优化算法。序列最小优化(Sequential Minimal Optimization, SMO)是一种常用的算法,它通过分解大的优化问题为一系列最小化问题来加速SVM的训练过程。SMO算法的执行步骤如下:

  1. 选择两个乘子

    SMO算法每次迭代选择两个乘子(alpha)进行优化,这两个乘子一个违反KKT条件较严重,另一个则根据某些启发式规则选择。选择这两个乘子的过程可以看作是在一个二维空间中优化问题。
  2. 解析求解子问题

    一旦选择了两个乘子,SMO算法将原始的SVM优化问题转化为只涉及这两个乘子的二次规划子问题。这个子问题可以解析求解,即可以直接通过数学公式计算出新的乘子值,而不需要使用数值优化方法。
  3. 更新乘子

    根据解析解,更新选中的两个乘子的值。由于SVM的对偶问题中的乘子之间有约束(例如,它们必须满足\sum \alpha _iy_i=0),更新一个乘子后,另一个乘子的值也可以相应地计算出来。
  4. 更新阈值b和权重向量w

    在每次迭代后,需要根据新的乘子值更新SVM模型的阈值b和权重向量w。权重向量w可以通过支持向量(即那些\alpha _i>0的样本点)计算得出,而阈值b则与这些支持向量的标签和位置有关。
  5. 检查收敛性

    在每次迭代后,检查所有乘子是否满足KKT条件。如果所有乘子都满足KKT条件,或者变化小于某个阈值,则认为算法已经收敛,训练过程可以结束。
  6. 重复迭代

    如果还有乘子不满足KKT条件,则重复上述步骤,选择下一对乘子进行优化。

SMO算法的优点是它的实现相对简单,并且可以有效地处理大规模数据集。它的核心思想是将复杂的优化问题分解为一系列简单的子问题,每个子问题都可以快速求解,从而大大减少了计算量。

ROC曲线

四个概率TP(将正样本识别为正样本的概率),FN(将正样本识别为负样本的概率),FP(将负样本识别为正样本的概率),TN(将负样本识别为负样本的概率)
1.TP+FN=1
2.FP+TN=1
3.对同一个系统来说,若TP增加,则FP也增加
FN减少↔TP增加↔FP增加↔TN减少

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值