支持向量机

乌骨鸡555

已于 2024-04-15 22:07:06 修改

阅读量426

点赞数 3

文章标签：支持向量机机器学习算法

于 2024-04-09 13:30:45 首次发布

本文链接：https://blog.csdn.net/wgj1023/article/details/136734478

版权

数学描述

d：间隔（margin）最大化
将平行线擦到的向量叫支持向量（Support Vectors）

定义

①训练数据及标签 $(X_1,y_1),(X_2,y_2)...(X_N,y_N)$ ，其中 $X_i$ 是向量， $X_1=\begin{bmatrix} x_{11}\\ x_{12}\\ ...\\ x_{1m} \end{bmatrix}$ ， $y_i$ 是标签， $y_i$ =+1或-1
②线性模型：(W,b) $W^TX+b=0$ （超平面），W是一个向量， $W=\begin{bmatrix} W_{1}\\ W_{2}\\ ...\\ W_{m} \end{bmatrix}$ ，b是一个常数
我们要干的事：用所有的①算出②中的W和b
③一个训练集线性可分是指：
$\left \{ (X_i,y_i)\right \}_{i=1...N}$ ， $\exists (W,b)$ ，使：
对 $\forall i=1...N$ ，有
⒈若 $y_i=+1$ ，则 $W^TX_i+b\geq 0$
⒉若 $y_i=-1$ 则 $W^TX_i+b< 0$
综合上式为： $y_i[W^TX_i+b]\geq 0$ （公式1）

优化问题（凸优化/二次规划）

最小化： $\frac{1}{2}||W||^2$
限制条件： $y_i[W^TX_i+b]\geq 1$ (i=1...N)

事实1： $W^TX+b=0$ 与 $aW^TX+ab=0$ 是同一个平面， $a\in R^+$
若(W,b)满足公式1，则(aW,ab)也满足公式1
事实2：点到平面的距离公式
平面： $W_1x+W_2y+b=0$
则 $(X_0,y_0)$ 到此平面的距离： $d=\frac{|W_1x_0+W_2y_0+b|}{\sqrt{W_1^2+W_2^2}}$
向量 $X_0$ 到超平面 $W^TX+b=0$ 的距离 $d=\frac{|W^TX+b|}{||W||}$ , $||W||=\sqrt{W_1^2+W_2^2+...+W_m^2}$
我们可以用a去缩放(W,b)→(aW,ab)
最终使在支持向量 $X_0$ 上有： $|W^TX_0+b|= 1$ ，此时支持向量与平面距离 $d=\frac{1}{||W||}$
因此最小化 $||W||^2$ 就是最大化d

二次规划

①目标函数是二次项
②限制条件是一次项
要么无解，要么只有一个极值

SVM处理非线性

一、最小化 $\frac{1}{2}||W||^2+C\sum_{i=1}^{N}\xi _i$ （i=1~N），其中 $\xi _i$ 为松弛变量， $C\sum_{i=1}^{N}\xi _i$ 为正则项，C是事先设定的参数
限制条件：
① $y_i[W^TX_i+b]\geq 1-\xi _i$
② $\xi _i\geq 0$

二、高维映射 $\varphi (x)$
$X_1=\begin{bmatrix} 0\\ 0 \end{bmatrix}\in C_1$ 、 $X_2=\begin{bmatrix} 1\\ 1 \end{bmatrix}\in C_1$ 、 $X_3=\begin{bmatrix} 1\\ 0 \end{bmatrix}\in C_2$ 、 $X_4=\begin{bmatrix} 0\\ 1 \end{bmatrix}\in C_2$
$\varphi (X):X=\begin{bmatrix} a\\ b \end{bmatrix}\overset{\varphi }{\rightarrow}\varphi (X)=\begin{bmatrix} a^2\\ b^2\\ a\\ b\\ ab \end{bmatrix}$
$\varphi (X_1)=\begin{bmatrix} 0\\ 0\\ 0\\ 0\\ 0 \end{bmatrix}\in C_1$ 、 $\varphi (X_2)=\begin{bmatrix} 1\\ 1\\ 1\\ 1\\ 1 \end{bmatrix}\in C_1$ 、 $\varphi (X_3)=\begin{bmatrix} 1\\ 0\\ 1\\ 0\\ 0 \end{bmatrix}\in C_2$ 、 $\varphi (X_4)=\begin{bmatrix} 0\\ 1\\ 0\\ 1\\ 0 \end{bmatrix}\in C_2$
$W=\begin{bmatrix} -1\\ -1\\ -1\\ -1\\ 6 \end{bmatrix},b=1$
① $\varphi (X)$ 是无限维。
我们可以不知道无限维映射 $\varphi (X)$ 的显式表达，我们只要知道一个核函数 $K(X_1,X_2)=\varphi (X_1)^T\varphi (X_2)$ ← $\varphi (X_1)$ 与 $\varphi (X_2)$ 两个无限维向量内积
则①这个优化式任然可解。

核函数

① $K(X_1,X_2)=e^{-\frac{||X_1-X_2||^2}{2\tau ^2}}$ （高斯核）
② $K(X_1,X_2)=(X_{1}^{T}+1)^d$ （多项式核，d为多项式阶数）

$K(X_1,X_2)$ 能写成 $\varphi (X_1)^T\varphi (X_2)$ 的充要条件：
① $K(X_1,X_2)=K(X_2,X_1)$ （交换性）
② $\forall C_i,X_i(i=1...N)$ 有： $\sum_{i=1}^{N}\sum_{j=1}^{N}C_iC_jK(X_i,X_j)\geqslant 0$ （半正定性）

优化理论

原问题（非常普适）

最小化： $f(\omega )$
限制条件： $g_i(\omega)\leqslant 0(i=1...k)$ 、 $h_i(\omega)=0(i=1...M)$

对偶问题

①定义： $L(\omega ,\alpha ,\beta )$
$=f(\omega )+\sum_{i=1}^{K}\alpha _ig_i(\omega )+\sum_{i=1}^{M}\beta _ih_i(\omega )$
$=f(\omega )+\alpha ^Tg(\omega )+\beta ^Th(\omega )$
其中
$g(\omega )=\begin{bmatrix} g_1(\omega )\\ g_2(\omega )\\ ...\\ g_K(\omega ) \end{bmatrix}$ 、 $h(\omega )=\begin{bmatrix} h_1(\omega )\\ h_2(\omega )\\ ...\\ h_M(\omega ) \end{bmatrix}$
②对偶问题定义
最大化： $\theta (\alpha ,\beta )=inf\left \{ L(\omega ,\alpha ,\beta ) \right \}$ ，其中inf是指在遍历所有w的情况下L的最小值
限制条件： $\alpha _i\geqslant 0(i=1...K)$

定理：如果 $\omega^*$ 是原问题的解，而 $\alpha ^*,\beta ^*$ 是对偶问题的解，则有 $f(\omega ^*)\geqslant \theta (\alpha ^*,\beta ^*)$

定义： $G=f(\omega ^*)-\theta (\alpha ^*,\beta ^*)\geqslant 0$ ，G叫做原问题与对偶问题的间距
对于某些特定优化问题，可以证明G=0
强对偶定理：若 $f(\omega )$ 为凸函数，且 $g(\omega )=A\omega +b$ , $h(\omega )=C\omega +d$
则此优化问题的原问题与对偶问题间距为0，即 $f(\omega ^*)=\theta (\alpha ^*,\beta ^*)$
对 $\forall i=1...K$ （KKT条件）
或者 $\alpha ^*_i=0$
或者 $g ^*_i(\omega ^*)=0$

②拉格朗日乘子法：拉格朗日乘子法是一种将约束优化问题转换为无约束优化问题的方法。它通过引入一组新的变量（拉格朗日乘子）来构造一个拉格朗日函数，该函数包含了原始问题的目标函数和约束条件。为了求解这个优化问题，可以使用拉格朗日乘子法。对于每个样本点 $(x_i,y_i)$ ，引入一个拉格朗日乘子 $\alpha _i\geq 0$ 。定义拉格朗日函数 $L(w,b,\alpha )$ 为：

$L(w,b,\alpha )=\frac{1}{2}||w||^2-\sum_{i=1}^{N}\alpha _i(y_i(w\cdot x_i+b)-1)$

其中，N 是样本数量。

③对偶问题：在优化问题中，通常有一个原始问题和一个对偶问题。原始问题是最初要解决的问题，它包含了一组决策变量、目标函数以及约束条件。对偶问题是通过应用拉格朗日乘子法得到的，它提供了原始问题的一个下界（对于最小化问题）。通过对拉格朗日函数分别对w和b求偏导并令其为0，可以得到对偶问题。对偶问题通常更容易求解，并且可以引入核函数来处理非线性问题。对偶问题中的目标函数是：

$W(\alpha )=\sum_{i=1}^{N}\alpha _i-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=i}^{N}\alpha _i\alpha _jy_iy_jx_i\cdot x_j$

需要满足的约束条件是： $\sum_{i=1}^{N}\alpha _iy_i=0$
$\alpha _i\geq 0,i=1,2,...,N$

④KKT条件： Karush-Kuhn-Tucker (KKT) 条件是解决对偶问题时必须满足的约束。这些条件包括原始问题的约束和拉格朗日乘子的非负性。KKT条件提供了一种检查某个解是否为优化问题最优解的方法。如果一个解满足KKT条件，那么它至少是一个局部最优解。在特定条件下（如问题为凸优化问题），KKT条件也是全局最优解的必要条件。

KKT条件由几个关键部分组成，包括：

梯度条件（Stationarity）：原始问题的目标函数的梯度与对偶问题的拉格朗日乘子有关，这确保了在最优解处，原始问题的目标函数在可行方向上的变化为零。
原始可行性（Primal Feasibility）：最优解必须满足原始问题的所有约束条件。
对偶可行性（Dual Feasibility）：对偶问题中的拉格朗日乘子必须满足一定的条件，例如对于不等式约束，乘子必须非负。
互补松弛条件（Complementary Slackness）：这涉及到原始问题的约束和对偶问题的乘子之间的关系，确保在最优解处，任何活跃的约束都与其对应的拉格朗日乘子相乘等于零。

⑤优化算法：求解对偶问题通常需要使用优化算法。序列最小优化（Sequential Minimal Optimization, SMO）是一种常用的算法，它通过分解大的优化问题为一系列最小化问题来加速SVM的训练过程。SMO算法的执行步骤如下：

选择两个乘子：
SMO算法每次迭代选择两个乘子（alpha）进行优化，这两个乘子一个违反KKT条件较严重，另一个则根据某些启发式规则选择。选择这两个乘子的过程可以看作是在一个二维空间中优化问题。
解析求解子问题：
一旦选择了两个乘子，SMO算法将原始的SVM优化问题转化为只涉及这两个乘子的二次规划子问题。这个子问题可以解析求解，即可以直接通过数学公式计算出新的乘子值，而不需要使用数值优化方法。
更新乘子：
根据解析解，更新选中的两个乘子的值。由于SVM的对偶问题中的乘子之间有约束（例如，它们必须满足 $\sum \alpha _iy_i=0$ ），更新一个乘子后，另一个乘子的值也可以相应地计算出来。
更新阈值b和权重向量w：
在每次迭代后，需要根据新的乘子值更新SVM模型的阈值b和权重向量w。权重向量w可以通过支持向量（即那些 $\alpha _i>0$ 的样本点）计算得出，而阈值b则与这些支持向量的标签和位置有关。
检查收敛性：
在每次迭代后，检查所有乘子是否满足KKT条件。如果所有乘子都满足KKT条件，或者变化小于某个阈值，则认为算法已经收敛，训练过程可以结束。
重复迭代：
如果还有乘子不满足KKT条件，则重复上述步骤，选择下一对乘子进行优化。

SMO算法的优点是它的实现相对简单，并且可以有效地处理大规模数据集。它的核心思想是将复杂的优化问题分解为一系列简单的子问题，每个子问题都可以快速求解，从而大大减少了计算量。

ROC曲线

四个概率TP（将正样本识别为正样本的概率）,FN（将正样本识别为负样本的概率）,FP（将负样本识别为正样本的概率）,TN（将负样本识别为负样本的概率）
1.TP+FN=1
2.FP+TN=1
3.对同一个系统来说，若TP增加，则FP也增加
FN减少↔TP增加↔FP增加↔TN减少

乌骨鸡555

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
支持向量机

①训练数据及标签，其中是向量，是标签，=+1或-1②线性模型：(W,b)（超平面），W是一个向量，，b是一个常数我们要干的事：用所有的①算出②中的W和b③一个训练集线性可分是指：，使：对，有⒈若，则⒉若则综合上式为：（公式1）
复制链接

扫一扫