SVM算法原理解析，计算过程和代码实现

鼓手星子

已于 2023-11-03 14:02:21 修改

阅读量665

点赞数 3

文章标签： 1024程序员节 svm 机器学习

于 2023-10-24 17:08:20 首次发布

本文链接：https://blog.csdn.net/weixin_45450828/article/details/133923250

版权

SVM（支持向量机）是一种二分类模型，虽然目前运用较少，但是其算法思想中所运用到的凸优化问题，向量空间和优化方法的各种思想对博主的进一步学习有很大的影响。本文是博主综合各方知识和信息，对SVM的算法过程逐步解析，过程可能会有一些错漏，欢迎大家批评指正。

算法解析

SVM的基本思想是在样本的向量空间中寻找一个超平面，使得两类样本被分割在平面的两端；这样的平面理论上有无穷多个，任一个超平面对应的判别模型为感知机。
而为了提高超平面的鲁棒性，需要寻找一个最优的超平面：两侧距离超平面最近的样本点到超平面的距离被最大化了；这种最优的超平面所对应的判别模型即为支持向量机。距离超平面最近的样本点为支持向量。

二维线性可分集

如图所示，若样本的两类子样本可以超平面所完全分割，则称该样本集线性可分。在讨论到线性不可分前，算法的上下文都为线性可分样本集。

数学表述

样本点： $\textbf{x}$ 为n维向量， $\textbf{x}=[x_1,x_2,...,x_n]$
$\textbf{x}_i$ 表示第i个样本点的向量
$\textbf{X}$ 表示样本空间
超平面表述： $\omega^T\textbf{x}+b=0$
样本点的标签值 $\pm1$
样本点距超平面的空间距离为: $d_i=\frac{\lvert \omega^T\textbf{x}_i+b \rvert}{\lvert\lvert \omega \rvert\rvert}$
内积的计算采用标准内积： $x_i,x_j>=x_i^Tx_j$

设样本空间中距离超平面最近的距离为 $d$ :
$d=\min_{\textbf{X}}{d_i}$
对于样本空间中的所有样本向量而言，满足 $d_i \ge d$ 。
让我们回到SVM的思想要求，我们想要寻找一个超平面满足：两侧距离超平面最近的样本点到超平面的距离最大化；
将这句话转化为数学表述即为：
$\max{d}\\ s.t. \enspace d_i \ge d$
为了求解这个问题，我们需要进一步的分解和具化：

若样本点线性可分，则对于可分离样本的超平面满足：
$\left\{ \begin{aligned} &\omega^Tx_i+b \gt 0 ；若y=1\\ &\omega^Tx_i+b \lt 0 ；若y=-1 \end{aligned} \right.$
正负方向是人为设定的，为了计算方便设置成同向；此时对于任意一个样本点有： $\lvert \omega^T\textbf{x}_i+b \rvert=y_i(\omega^T\textbf{x}_i+b)$ 。
代入样本点距超平面的距离公式： $d_i=\frac{y_i(\omega^T\textbf{x}_i+b)}{\lvert\lvert \omega \rvert\rvert}$
由于 $\omega$ 的数乘变换不会影响 $d_i$ 的结果，所以满足要求超平面的参数 $\omega$ 有无数个，即 $\omega=k*\omega$ ; 为了保证结果的唯一性，需要规定一个合适的k值；一般按照最大的最小距离去规范 $\omega$ 的长度: $令\qquad\lvert\lvert \omega \rvert\rvert *d=1$
代入距离公式中有： $d_i=d*y_i(\omega^T\textbf{x}_i+b) \ge d \\ \\ =>\left\{\begin{aligned} &y_i(\omega^T\textbf{x}_i+b) \ge 1 \\ &d=\frac{1}{\lvert\lvert \omega \rvert\rvert} \end{aligned} \right.$
目标问题具化成： $\max{\frac{1}{\lvert\lvert \omega \rvert\rvert}} \enspace \underleftrightarrow{\enspace 等价 \enspace} \enspace \min{\lvert\lvert \omega \rvert\rvert}$
由于对目标函数的单增变换不会改变结果的解值：
$\min{\lvert\lvert \omega \rvert\rvert} \enspace \underleftrightarrow{\enspace 等价 \enspace} \enspace \min{\frac{1}{2}\lvert\lvert \omega \rvert\rvert^2}$

最终寻找最近样本点的距离最大化的超平面问题转化为： $\min{\frac{1}{2}\lvert\lvert \omega \rvert\rvert^2} \\ s.t. \enspace y_i(\omega^T\textbf{x}_i+b) \ge 1$
在标准内积的设定下，目标函数为凸二次函数，所以问题转换成凸二次规划问题。

KKT条件

函数最值

求解多维函数的最值问题，一般分两种情况考虑：
假设目标函数为 $f (x, y)$ ，以二维为例，存在二阶偏导:

无条件极值：
(1) 必要条件： $\left\{ \begin{aligned}&\frac{\partial{f(x,y)}}{\partial{x}}=0\\&\frac{\partial{f(x,y)}}{\partial{y}}=0\end{aligned}\right.$
(2) 充分条件: $\left\{ \begin{aligned}&\frac{\partial^2{f(x,y)}}{\partial{x^2}}=A\\&\frac{\partial^2{f(x,y)}}{\partial{x}\partial{y}}=B\\ &\frac{\partial^2{f(x,y)}}{\partial{y^2}}=C\end{aligned}\right. \longrightarrow \left\{ \begin{aligned}&AC-B^2>0;A>0:极小,A<0:极大\\&AC-B^2<0;非极值\\&AC-B^2=0;另外讨论\end{aligned}\right.$
一般通过必要条件寻找可能的极值点，后通过充分条件验证这些可能点；最后比较各个极值点得出到最值。
条件极值:
若自变量 $(x, y)$ 存在限制条件: $g (x, y) = 0$ ，则需要构造拉格朗日函数： $L(x,y,\lambda)=f(x,y)+\lambda g(x,y)$
分别对三个变量求偏导： $\left\{ \begin{aligned}&\frac{\partial{L(x,y,\lambda)}}{\partial{x}}=0\\&\frac{\partial{L(x,y,\lambda)}}{\partial{y}}=0\\&\frac{\partial{L(x,y,\lambda)}}{\partial{\lambda}}=0\end{aligned}\right. \longrightarrow \left\{ \begin{aligned}&\nabla{f(x,y)}+\lambda\nabla{g(x,y)}=0\\&g(x,y)=0\end{aligned}\right.$
求解得满足限制条件的极值点

一般优化问题的KKT条件

详细的推导过程可以参考 KKT条件，原来如此简单 | 理论+算例实践 - 科研小飞的文章 - 知乎；写得很精彩，我就省略一些解释过程了。

不同情况下的拉格朗日函数统一：
若限制条件为不等式： $\le 0$ ，其本质其实是函数值在向量空间中某个区域内的最值（含边界）；所以我们可以分成两种情况来讨论： $\left\{ \begin{aligned}&区域内的极值(无条件极值，但极值点需要满足区域条件)\\&边界上的极值(条件极值)\end{aligned}\right.$
这样问题就回到上面函数最值的方法上；为了统一形式，不用分类讨论；在区域内的情况下也引入拉格朗日算子 $\lambda$ ；构造拉格朗日函数 $L(x,y,\lambda)=f(x,y)+\lambda g(x,y)$ 。
此时 $\left\{ \begin{aligned}&\lambda=0,区域内\\&g(x,y)=0, 边界上\end{aligned}\right. \longrightarrow \lambda g(x,y)=0$
关于具体优化问题 $\lambda$ 的讨论：
对于最优化问题形如： $\max{f(x,y)}\\ s.t. \enspace g(x,y)\ge 0$
为了保证拉格朗日函数所求值为极大值，需要限制 $\lambda\ge0$ ;（最小化问题类似）
如图所示（计算机画图技巧还不好，正在学习中）：

设极值点为： $x^*,y^*)$
- 由于 $\ge0$ ,所以 $g (x, y)$ 的梯度方向( $\nabla{g(x,y)}$ )一定是指向可行域内；可行域内的函数值大于边界的函数值。
- 由于要最大化 $f (x, y)$ ,所以 $f (x, y)$ 的梯度方向( $\nabla{f(x,y)}$ )一定是指向可行域外; 若指向可行域内，则最大值一定不在边界上，需要修改函数和问题形式。
- 取得极值的条件是， $\nabla{g(x^*,y^*)}$ 和 $\nabla{f(x^*,y^*)}$ 共线且方向相反；所以有 $\nabla{f(x^*,y^*)}=-\lambda\nabla{g(x^*,y^*)}$ (目标函数无法通过移动再获取增量)
所以: $\nabla{f(x^*,y^*)}+\lambda\nabla{g(x^*,y^*)}=0$
我们可以得到 $\lambda\ge0$
同时这个条件是在设定问题形式下得到的，为了保障结果的一致性和计算的便利性；改变问题形式， $\lambda\ge0$ 是可以不满足的。
最优化问题的KKT条件：
$\max{f(x,y)}\\ s.t. \enspace g(x,y)\ge 0$
综上，关于该问题的KKT条件为：
$\left\{ \begin{aligned} &\nabla{f(x^*,y^*)}+\lambda\nabla{g(x^*,y^*)}=0\\ &\lambda g(x^*,y^*) = 0\\ &g(x,y) \ge 0\\ &\lambda \ge 0 \end{aligned} \right.$

最大最小间隔问题的KKT条件

让我们回到原问题： $\min{\frac{1}{2}\lvert\lvert \omega \rvert\rvert^2} \\ s.t. \enspace y_i(\omega^T\textbf{x}_i+b) \ge 1$
其KKT条件为：
$\left\{ \begin{aligned} &\nabla{(\frac{1}{2}\lvert\lvert \omega \rvert\rvert^2)}+\sum\lambda_i\nabla{(1-y_i(\omega^T\textbf{x}_i+b))}=0\\ &\lambda_i (1-y_i(\omega^T\textbf{x}_i+b))= 0\\ &(1-y_i(\omega^T\textbf{x}_i+b)) \le 0\\ &\lambda \ge 0 \end{aligned} \right.$
求解这个KKT条件方程组，便可以得到超平面的 $\omega^*x+b^*$ ; 但是直接计算会消耗大量的空间和涉及Hermit矩阵的相关计算(博主尝试去了解原始计算方法的问题，但是能力和精力有限，不得要领，有需求的小伙伴可以参考上传的英文教程)。所以引入了SMO算法，SMO算法通过将原始问题分解为一系列最小二次规划问题，避免了计算海森矩阵的逆或伪逆，从而显著提高了训练速度。

SMO算法

拉格朗日对偶性

参考：拉格朗日对偶性 - Eureka的文章 - 知乎

极小极大化问题：
对于一般的优化问题：
$\left\{ \begin{aligned} &\min{f(x)}\\ s.t. \enspace & \phi_i(x)\le0 \\ &\mu_j(x) = 0 \end{aligned} \right.$
引入拉格朗日算子: $\alpha,\alpha>0;\beta$
其拉格朗日函数为： $L(x,\alpha,\beta)=f(x)+\sum{\alpha_i\phi_i(x)}+\sum{\beta_j\mu_j(x)}$
同时构造关于 $x$ 的函数： $\theta_P(x)=\max_{\alpha,\beta;\alpha\ge0}{L(x,\alpha,\beta)}$
假如 $x$ 不满足优化限制条件:
$\left\{ \begin{aligned} &若\phi_i{(x)}>0,则令\alpha=+\infty\\ &若\mu_i(x) \ne 0, 则令\beta_i\mu_i(x)=+\infty \end{aligned} \right. \longrightarrow\theta_P(x)=+\infty$
即 $\theta(x)$ 总能等于无穷大
假如 $x$ 满足优化限制条件:
$\theta_P(x)=\max_{\alpha,\beta;\alpha\ge0}{L(x,\alpha,\beta)}=f(x)$
所以有 $\theta_P(x)= \left\{ \begin{aligned} &+\infty,若x不满足限制条件\\ &f(x),若x满足限制条件 \end{aligned} \right.$
所以求 $\min{\theta(x)}$ 等价于求限制条件下的 $min{f(x)}$ ，也就是说原问题等价于：
$\min_x{\max_{\alpha,\beta;\alpha\ge0}{L(x,\alpha,\beta)}}$
称为广义拉格朗日函数的极小极大问题。
其最优值为： $p^*=\theta_P(x^*)$
对偶问题：
构造关于 $\alpha,\beta$ 的函数： $\theta_D(\alpha,\beta)=\min_{x}{L(x,\alpha,\beta)}$
则极大化函数： $\max_{\alpha,\beta;\alpha\ge0}{\theta_D}=\max_{\alpha,\beta;\alpha\ge0}{\min_x{L(x,\alpha,\beta)}}$
称为广义拉格朗日函数的极大极小问题。
同时也是原始问题的对偶问题，其最优值为： $d^*=\theta_D(\alpha^*,\beta^*)$
若两个问题都有最优解，则 $d^*\le p^*$
因为 $d^*$ 的最大值为 $f (x)$ , $p^*$ 的最小值为 $f (x)$
这个性质便叫做弱对偶性（weak duality），对于所有优化问题都成立，即使原始问题非凸。
若原始问题及其对偶问题满足：
- $f(x),\phi(x)$ 为凸函数， $\mu(x)$ 为仿射函数
- $\phi(x)$ 的不等式约束严格成立
则存在 $x^*$ 是原问题的解， $\alpha^*,\beta^*$ 是对偶问题的解使得(强对偶性):
$d^*=p^*=L(x^*,\alpha^*,\beta^*)$
解 $(x^*,\alpha^*,\beta^*)$ 是原始问题和对偶问题解的充要条件是 KKT条件

最大最小间隔问题的对偶问题：

原始问题转为极小极大值问题为：
$\min_{\omega,b}{\max_{\lambda;\lambda>0}{(\frac{1}{2}\lvert\lvert \omega \rvert\rvert^2}+\sum\lambda_i(1-y_i(\omega^T\textbf{x}_i+b)))}$
由于强对偶性的条件都满足，所以原问题与对偶问题的解相等；对偶问题为：
$\max_{\lambda;\lambda>0}{\min_{\omega,b}{(\frac{1}{2}\lvert\lvert \omega \rvert\rvert^2}+\sum\lambda_i(1-y_i(\omega^T\textbf{x}_i+b)))}$
创建 $\lambda$ 的函数： $\theta(\lambda)=\min_{\omega,b}{(\frac{1}{2}\lvert\lvert \omega \rvert\rvert^2}+\sum\lambda_i(1-y_i(\omega^T\textbf{x}_i+b)))$
现在先求问题： $\min_{\omega,b}{(\frac{1}{2}\lvert\lvert \omega \rvert\rvert^2}+\sum\lambda_i(1-y_i(\omega^T\textbf{x}_i+b))); \lambda \ge0$
$\begin{aligned} &\frac{\partial{L(\omega,b,\lambda)}}{\partial(\omega)}=\omega-\sum_{i=1}^n{\lambda_i y_i \textbf{x}_i}=0\\ &\frac{\partial{L(\omega,b,\lambda)}}{\partial(b)}=\sum_{i=1}^n{\lambda_i y_i}=0 \end{aligned}$
得： $\omega^*=\sum_{i=1}^n{\lambda_i y_i \textbf{x}_i};b$ 随意，后面通过KKT条件求出（可以向量表示，后期再补充了。）
带入得： $\theta(\lambda)=\sum_{j=1}^n{\lambda_j}-\frac{1}{2}\sum_{i=1}^n{\sum_{j=1}^{n}{\lambda_i\lambda_j y_i y_j(\textbf{x}_i^T\textbf{x}_j)}}$
最大化问题可以表述为：
$\begin{aligned} &\max{\theta(\lambda)}\\ s.t. & \sum_{i=1}^n{\lambda_i y_i}=0 \\ & \lambda_i \ge 0 \end{aligned}$

SMO算法

具体的求解过程请参考：机器学习算法实践-SVM中的SMO算法 - 邵正将的文章 - 知乎
在大数据量样本的情况下，上述问题仍旧是个计算庞大的问题。SMO的基本思想类似于坐标上升算法，每次迭代中选取多元函数中的一维，固定其他维度，请当前维度下的极值；经过多次迭代收敛达到优化函数的目的。
但是由于所求问题存在约束： $\sum_{i=1}^n{\lambda_i y_i}=0$ ，函数自由度仅有(n-1)；所以在SMO算法中每次选取两个参数 $\lambda_i,\lambda_j$ ,固定其他参数；代入限制条件有(设 $i = 1, j = 2$ )：
$\begin{aligned} &\lambda_1 y_1 + \lambda_2 y_2 = -\sum_{i=3}^{n}\lambda_i y_i = C\\ &两边×y_2:\\ & \lambda_2=Cy_2-\lambda_1 y_1 y_2 \end{aligned}$
这样就可以得到第k轮时优化的目标函数:
$\theta(\lambda_1,\lambda_2)=\lambda_1+\lambda_2-\frac{1}{2}\lambda_1^2y_1^2(\textbf{x}_1^T\textbf{x}_1)-\frac{1}{2}\lambda_2^2y_2^2(\textbf{x}_2^T\textbf{x}_2)-\lambda_1\lambda_2y_1y_2(\textbf{x}_1^T\textbf{x}_2)-\sum_{i=3}^n{\lambda_1\lambda_iy_1y_i(\textbf{x}_1^T\textbf{x}_i)}-\sum_{i=3}^n{\lambda_2\lambda_iy_2y_i(\textbf{x}_2^T\textbf{x}_i)}+C_0$
为了表述方便，对式子中的常数做命名规定以简化算式：

$K_{ij}=\textbf{x}_i^T\textbf{x}_j，即两向量的标准内积；有K_{ji}=K_{ji}$
$v_i=\sum_{k!=i,j}^n{\lambda_ky_k(\textbf{x}_i^T\textbf{x}_k)}；i,j为每轮所选的参数角标$
$e_i=f(\textbf{x}_i)-y_i,为第i个样本的预测误差$
$\lambda_i^{old}为上一轮参数值;\lambda_i^{new}为本轮参数值$

代入限制条件，去掉无关常数后：
$\theta(\lambda_1)=\lambda_1-y_1y_2\lambda_1-\frac{1}{2}K_{11}\lambda_1^2-\frac{1}{2}K_{22}\lambda_1^2+K_{12}\lambda_1^2+K_{22}Cy_1\lambda_1-K_{12}Cy_1\lambda_1-v_1y_1\lambda_1+v_2y_1\lambda_2$
对函数求导：
$\frac{\partial\theta(\lambda_1)}{\partial{\lambda_1}}= -(K_{11}+K_{22}-2K_{12})\lambda_1+K_{22}Cy_1-K_{12}Cy_1-(v_1-v_2)y_1=0$
引入上一轮的预测值 $f(x_1)$ ，创建迭代过程：
$\begin{aligned} f(x_1)&=\omega^T\textbf{x}_1+b; w=\sum_{j=1}^n{\lambda_j^{old} y_j \textbf{x}_j}\\ &=\sum_{j=1}^n{\lambda_j^{old} y_j \textbf{x}_j^T\textbf{x}_1+b}\\ &=\sum_{j=1}^n{\lambda_j^{old} y_j K_{j1}+b}\\ &=\lambda_1y_1K_{11}+\lambda_2y_2K_{21}+v_1+b\\ f(x_2)-f(x_1)&=v_2-v_1+K_{22}C-K_{12}C-(K_{11}+K_{22}-2K_{12})y_1\lambda_1^{old} \end{aligned}$
将 $v_2-v_1$ 代入极值条件式：
$\lambda_1^{new}= \lambda_1^{old}+\frac{y_1(e_2-e_1)}{K_{11}+K_{22}-2K_{12}}$

再由 $\lambda_1^{new}y_1+\lambda_2^{new}y_2=\lambda_1^{old}y_1+\lambda_2^{old}y_2$ 得到：
$\lambda_2^{new}=\lambda_2^{old}+\frac{y_2(e_1-e_2)}{K_{11}+K_{22}-2K_{12}}$
求出之后注意 $\lambda$ 的限制条件： $\lambda>0$ ；
所以当 $y_1=y_2$ 时： $\lambda_1^{new}=\lambda_1^{old}+\lambda_2^{old}-\lambda_2^{new}\le\lambda_1^{old}+\lambda_2^{old}$
当 $y_1=-y_2$ 时： $\lambda_1^{new}=\lambda_1^{old}-\lambda_2^{old}+\lambda_2^{new}\ge\lambda_1^{old}-\lambda_2^{old}$

Python实现

代码

线性可分，硬间隔

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import random
from sklearn.datasets import make_blobs
from pylab import mpl

#防止乱码
mpl.rcParams["font.sans-serif"] = ["SimHei"]
mpl.rcParams["axes.unicode_minus"] = False

# 创建数据，目前先考虑线性可分的情况
def create_data():
    X, y = make_blobs(n_samples=100, centers=2, random_state=0, cluster_std=0.6)
    return X,y

# 初始化参数
def init_para(n:int,l:int):
    omega = np.zeros([n,1])
    b = 0
    lm = np.zeros([l,1])
    return omega,b,lm

# 预测计算
def f(X,omega,b):
    f = np.dot(omega.T,X)+b
    return f
# 对于参数的选取采用随机的方式
def choose_j(i,l):
    j_l = list(range(l))
    j_l = j_l[0:i]+j_l[i+1:-1]
    return random.choice(j_l)

# 超平面的计算
def plane(lm,X,y):
    tao = np.multiply(lm,y)
    omega = np.dot(tao.T,X).T
    return omega

X,y = create_data()
y = (y.reshape(len(y),1)-0.5)*2

omega,b,lm = init_para(len(X[0]),len(X))
l,n = X.shape
# 定义最大循环次数
mt = 40
it = 0
# 定义移动阈值,若变化量小于移动阈值，则不改变
ct = 0.00001
while it < mt:
    lm_changed = 0
    for i in range(l):
        j = choose_j(i,l)
        K_ii = np.dot(X[i],X[i])
        K_jj = np.dot(X[j],X[j])
        K_ij = np.dot(X[i],X[j])
        z = K_ii+K_jj-2*K_ij
        e_i = f(X[i],omega,b)-y[i]
        e_j = f(X[j],omega,b)-y[j]
        # 大于0的限制条件
        if y[i]==y[j]:
            lm_i = max(0,min(lm[i]+lm[j],lm[i]+y[i]*(e_j-e_i)/z))
        else:
            lm_i = max(lm[i]-lm[j],lm[i]+y[i]*(e_j-e_i)/z,0)
        lm_j = lm[j]+y[i]*y[j]*(lm[i]-lm_i)
        if lm_i < 0 or lm_j <0 :
            continue
        if abs(lm_i-lm[i])<ct:
            continue
        
        # 更新超平面参数
        b_i = -e_i-y[i]*K_ii*(lm_i-lm[i])-y[j]*K_ij*(lm_j-lm[j])+b
        b_j = -e_j-y[j]*K_jj*(lm_j-lm[j])-y[i]*K_ij*(lm_i-lm[i])+b
        if lm_i>0 and lm_j>0:
            b = (b_i+b_j)/2
        elif lm_i >0 :
            b = b_i
        elif lm_j >0 :
            b = b_j
        lm[i] = lm_i
        lm[j] = lm_j
        omega = plane(lm,X,y)
        lm_changed +=1
    # 如果没有更新 那么迭代—+1
    if lm_changed == 0:
        it+=1
    else:
        it = 0

lmd = pd.DataFrame(lm,columns=['lambda'])

support_vectors = X[lmd[lmd['lambda']>ct].index]
# 画图
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired)
    

# 画出支持向量
plt.scatter(support_vectors[:, 0], support_vectors[:, 1], s=100,
                facecolors='none', edgecolors='k',label='支持向量')

# 画出决策边界和超平面
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()
# 创建网格
xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
YY, XX = np.meshgrid(yy, xx)
Z = omega[0]*XX+omega[1]*YY+b
# 绘制等高线图来表示决策边界和间隔
ax.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1], alpha=0.5,
               linestyles=['--', '-', '--'])
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(loc='upper left')
plt.title('SVM示意图')
plt.show()

print('***')

运行结果

（因为数据是随意生成的，所以每次结果不同）：
在这里插入图片描述

软间隔

软间隔引入

若干样本中存在少数异常点，导致样本线性不可分；
少量异常点
那么可以允许异常点不满足限制条件： $1-y_i(\omega^T\textbf{x}_i+b) \le0$ ；
加入一个松弛变量 $\varepsilon_i\ge0 \rightarrow 1-y_i(\omega^T\textbf{x}_i+b)-\varepsilon_i \le0$ ;
同时在目标函数中加入惩罚项： $C\sum{\varepsilon_i} \rightarrow \frac{1}{2}\lvert\lvert \omega \rvert\rvert^2+C\sum{\varepsilon_i}$ ;
其中C为大于0的常数，为异常样本的惩罚程度；有C越大，允许的松弛变量越小

软间隔条件下的KKT条件为:
$\left\{ \begin{aligned} &\nabla{(\frac{1}{2}\lvert\lvert \omega \rvert\rvert^2+C\sum{\varepsilon_i})}+\sum\lambda_i\nabla{(1-y_i(\omega^T\textbf{x}_i+b)-\varepsilon_i)}+\sum{\mu_i\nabla{(-\varepsilon_i)}}=0\\ &\lambda_i (1-y_i(\omega^T\textbf{x}_i+b)-\varepsilon_i)= 0\\ &\mu_i \varepsilon_i= 0\\ &(1-y_i(\omega^T\textbf{x}_i+b)-\varepsilon_i) \le 0\\ &-\varepsilon_i \le 0\\ &\lambda \ge 0; \,u \ge 0 \\ \end{aligned} \right.$

原始的极小极大值问题为： $\min_{\omega,b,\varepsilon}{\max_{\lambda;\lambda>0}{(\frac{1}{2}\lvert\lvert \omega \rvert\rvert^2+C\sum{\varepsilon_i}}+\sum\lambda_i(1-y_i(\omega^T\textbf{x}_i+b)-\varepsilon_i)+\sum\mu_i(-\varepsilon_i))}$
转化为对偶问题为: $\max_{\lambda;\lambda>0}{\min_{\omega,b,\varepsilon}{(\frac{1}{2}\lvert\lvert \omega \rvert\rvert^2+C\sum{\varepsilon_i}}+\sum\lambda_i(1-y_i(\omega^T\textbf{x}_i+b)-\varepsilon_i)+\sum\mu_i(-\varepsilon_i))}$
设函数 $\theta(\lambda)=\min_{\omega,b,\varepsilon}{(\frac{1}{2}\lvert\lvert \omega \rvert\rvert^2+C\sum{\varepsilon_i}}+\sum\lambda_i(1-y_i(\omega^T\textbf{x}_i+b)-\varepsilon_i)+\sum\mu_i(-\varepsilon_i))$
求解：
$\begin{aligned} &\frac{\partial{L(\omega,b,\lambda,\varepsilon)}}{\partial(\omega)}=\omega-\sum_{i=1}^n{\lambda_i y_i \textbf{x}_i}=0\\ &\frac{\partial{L(\omega,b,\lambda,\varepsilon)}}{\partial(b)}=\sum_{i=1}^n{\lambda_i y_i}=0\\ &\frac{\partial{L(\omega,b,\lambda,\varepsilon)}}{\partial(\varepsilon_i)}=C-\lambda_i-\mu_i=0 \end{aligned}$
代入得：
$\theta(\lambda)=\sum_{j=1}^n{\lambda_j}-\frac{1}{2}\sum_{i=1}^n{\sum_{j=1}^{n}{\lambda_i\lambda_j y_i y_j(\textbf{x}_i^T\textbf{x}_j)}} \\ s.t. \enspace \lambda \ge0;\sum_{i=1}^n{\lambda_i y_i}=0;C-\lambda_i-\mu_i=0$
在软间隔的情况下，优化目标不变，但是多了一个限制条件；该限制条件限制了 $\lambda$ 的上限,即 $\lambda \le C$ ;
所以解的形式和硬间隔类似，但是根据限制条件： $\lambda>0$ 和 $\lambda \le C$ ；
当 $y_1=y_2$ 时： $\lambda_1^{old}+\lambda_2^{old}-C\le\lambda_1^{new}=\lambda_1^{old}+\lambda_2^{old}-\lambda_2^{new}\le\lambda_1^{old}+\lambda_2^{old}$
当 $y_1=-y_2$ 时： $\lambda_1^{old}-\lambda_2^{old}\le\lambda_1^{new}=\lambda_1^{old}-\lambda_2^{old}+\lambda_2^{new}\le\lambda_1^{old}-\lambda_2^{old}+C$
在python实现时，也只用增加 $\lambda$ 的可行域判断即可

Python实现

引入惩罚程度C，C越大对边界内的点容忍越小，约接近硬间隔的情况；
在硬间隔的代码中修改 $\lambda$ 的取值限制即可；

# 大于0的限制条件
if y[i]==y[j]:
   lm_i = max(0,min(lm[i]+lm[j],lm[i]+y[i]*(e_j-e_i)/z,C),lm[i]+lm[j]-C)
else:
   lm_i = max(lm[i]-lm[j],min(lm[i]+y[i]*(e_j-e_i)/z,lm[i]-lm[j]+C,C),0)
lm_j = lm[j]+y[i]*y[j]*(lm[i]-lm_i)

决策边界内的向量仍对超平面的生成起作用，所以仍是支持向量：
软间隔支持向量的训练结果

线性不可分

基本思想

关于向量空间和其映射的特征空间以及核应该是一套完整的关于非线性映射的逻辑，博主也还是一知半解，大家可以参考一下这个文章的讲解:支持向量机的通俗导论。
若整个数据集分割线是个完全的曲面，在样本集所在的向量空间中，我们无法使用平面来分割样本集；很自然的就有拟合一个非线性关系的想法，这等价于应用一个固定的非线性映射，将数据映射到特征空间，在特征空间中使用线性学习器，即映射 $x\rightarrow\phi(\textbf{x})$ 。
那么分类器的函数就可以表示为：
$f(x)=\omega\phi(\textbf{x})+b$
根据之前的求解过程，在求对偶问题的时候 $\phi(x)$ 这个位置是没动的（因为是对 $\omega$ 的偏导）,所以非线性问题的对偶问题可以表示成：
$\theta(\lambda)=\sum_{j=1}^n{\lambda_j}-\frac{1}{2}\sum_{i=1}^n{\sum_{j=1}^{n}{\lambda_i\lambda_j y_i y_j<\phi(\textbf{x}_i),\phi(\textbf{x}_j)>}}$
其中， $<\phi(\textbf{x}_i),\phi(\textbf{x}_j)>$ 是特征空间中向量的内积。
这样，如果我们选择一个正确的映射 $\phi(x)$ ，那么我们可以依然可以计算出对应的曲面。
如：
圆集示意
如图所示的圆集，其理想分割面应该是个二次曲线：
$a_1x_1^2+a_2x_2^2+a_3x_1+a_4x_2+a_5x_1x_2+a_6=0$
这样其实是将原本的二维向量 $\textbf{x}$ 上升成五维向量 $\textbf{z}$ :
$\textbf{x}=\left\{\begin{aligned} &x_1\\ &x_2 \end{aligned}\right. \rightarrow \textbf{z}=\left\{\begin{aligned} &x_1^2\\ &x_2^2\\ &x_1\\ &x_2\\ &x_1x_2 \end{aligned}\right.$
这样问题就解决了？
但是

不同数据集的理想分割曲面是不同的，每次选择映射也不同，同时新增的数据也可能改变映射关系；
单纯从圆集角度来看，都会从二维上升成五维；如果是三维球体，那么需要上升的维度就是十九维，依次类推，很容易引起维度爆炸，大大增加训练难度；

核函数的引入

如果我们有个函数 $K(\textbf{x}_1,\textbf{x}_2)=<\phi(\textbf{x}_1),\phi(\textbf{x}_2)>$ ，那么在对偶问题中我们就不需要显性的映射关系 $\phi(\textbf{x})$ ，而可以在当前维度下计算核函数的值，进而求解对偶问题的解：
$\theta(\lambda)=\sum_{j=1}^n{\lambda_j}-\frac{1}{2}\sum_{i=1}^n{\sum_{j=1}^{n}{\lambda_i\lambda_j y_i y_jK(\textbf{x}_1,\textbf{x}_2)}}$
但是这里有个问题：虽然我们求出了 $\lambda$ 的值，但是我们怎么使用这个结果进行分类呢？
在线性可分的情况下，可以显性的求出 $f(\textbf{x})=\omega\textbf{x}+b$ ，但是由于引入显性映射的复杂性，所以很难求出线性的曲面；
这时候需要回顾对偶问题的 $\omega$ 值： $\omega^*=\sum_{i=1}^n{\lambda_i y_i \textbf{x}_i}$
将 $\textbf{x}$ 换为映射后：
$\begin{aligned} &\omega^*=\sum_{i=1}^n{\lambda_i y_i \phi(\textbf{x}_i}) \\ &\rightarrow f(\textbf{x})=\sum_{i=1}^n{\lambda_i y_i <\phi(\textbf{x}_i}),\phi(\textbf{x})>+b\\ &\rightarrow f(\textbf{x})=\sum_{i=1}^n{\lambda_i y_i K(\textbf{x}_i,\textbf{x})}+b \end{aligned}$
所以，通过核函数我们不用显性求出映射，同时分割平面是高维度的平面，也不用显性的在当前空间算出。
至此，其实我们可以把线性可分情况也纳入统一的表述中，其用的核函数是一种线性核，即 $K(\textbf{x}_1,\textbf{x}_2)=<\textbf{x}_1,\textbf{x}_2>$
在选用其他核的情况下，我们只需要将线性可分情况下的核计算换成对应核即可。

关于核的一些原理和推导，博主还是管中窥豹，大家有兴趣的可以参考我上传的英语教程。

常用的核函数:

多项式核： $K(\textbf{x}_1,\textbf{x}_2)=(\textbf{x}_1^T\textbf{x}_2)^d$
高斯核： $K(\textbf{x}_1,\textbf{x}_2)=e^{-\frac{||\textbf{x}_1-\textbf{x}_2||^2}{2\sigma^2}}$

高斯核将原始空间映射为无限维空间，合理的选择参数 $\sigma$ 则可以将任意的数据映射为线性可分，所以应用较为广泛。

Python实现

根据上述线性可分硬间隔代码中调整核值计算即可，同时将 $\omega$ 的输出删掉，改成直接预测值的输出。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import random
from sklearn.datasets import make_blobs,make_circles
from matplotlib.patches import Wedge
from pylab import mpl

mpl.rcParams["font.sans-serif"] = ["SimHei"]
mpl.rcParams["axes.unicode_minus"] = False

# 创建数据，目前先考虑线性可分的情况
def create_data():
    # 改成圆集
    X,y=make_circles(n_samples=100,factor=0.1,noise=0.1)
    return X,y

# 核函数的计算
def K(X1,X2):
    theta = 2
    K=np.exp(-np.sum((X1-X2)**2)/theta)
    return K

# 初始化参数
def init_para(n:int,l:int):
    omega = np.zeros([n,1])
    b = 0
    lm = np.zeros([l,1])
    return omega,b,lm


def f(lm,X,y,x,b):
    tao = np.multiply(lm,y)
    k = np.apply_along_axis(K,1,X,x)
    f = np.dot(tao.T,k)+b
    return f[0]

# 对于参数的选取采用随机的方式
def choose_j(i,l):
    j_l = list(range(l))
    j_l = j_l[0:i]+j_l[i+1:-1]
    return random.choice(j_l)



X,y = create_data()
y = (y.reshape(len(y),1)-0.5)*2

# 利用高斯升维


omega,b,lm = init_para(len(X[0]),len(X))
l,n = X.shape
# 定义最大循环次数
mt = 40
it = 0
C=0.6
# 定义移动阈值,若变化量小于移动阈值，则不改变
ct = 0.00001
while it < mt:
    lm_changed = 0
    for i in range(l):
        j = choose_j(i,l)
        K_ii = K(X[i],X[i])
        K_jj = K(X[j],X[j])
        K_ij = K(X[i],X[j])
        z = K_ii+K_jj-2*K_ij
        e_i = f(lm,X,y,X[i],b)-y[i]
        e_j = f(lm,X,y,X[j],b)-y[j]
        # 大于0的限制条件
        if y[i]==y[j]:
        	lm_i = max(0,min(lm[i]+lm[j],lm[i]+y[i]*(e_j-e_i)/z,C),lm[i]+lm[j]-C)
        else:
        	lm_i = max(lm[i]-lm[j],min(lm[i]+y[i]*(e_j-e_i)/z,lm[i]-lm[j]+C,C),0)
        lm_j = lm[j]+y[i]*y[j]*(lm[i]-lm_i)
        if lm_i < 0 or lm_j <0 :
            continue
        if abs(lm_i-lm[i])<ct:
            continue
        
        # 更新超平面参数
        b_i = -e_i-y[i]*K_ii*(lm_i-lm[i])-y[j]*K_ij*(lm_j-lm[j])+b
        b_j = -e_j-y[j]*K_jj*(lm_j-lm[j])-y[i]*K_ij*(lm_i-lm[i])+b
        if lm_i>0 and lm_j>0:
            b = (b_i+b_j)/2
        elif lm_i >0 :
            b = b_i
        elif lm_j >0 :
            b = b_j
        lm[i] = lm_i
        lm[j] = lm_j
        lm_changed +=1
    # 如果没有更新 那么迭代—+1
    if lm_changed == 0:
        it+=1
    else:
        it = 0

lmd = pd.DataFrame(lm,columns=['lambda'])

support_vectors = X[lmd[lmd['lambda']>ct].index]

# 画图
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired)
plt.scatter(support_vectors[:, 0], support_vectors[:, 1], s=100,
                facecolors='none', edgecolors='k',label='支持向量')

ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()
# 创建网格
xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
YY, XX = np.meshgrid(yy, xx)
# 创建预测Z值
Z = []
for i in range(len(XX)):
    _Z = []
    for j in range(len(XX[i])):
        Point = np.array([XX[i][j],YY[i][j]])
        _Z.append(f(lm,X,y,Point,b))
    Z.append(_Z)

ax.contour(XX, YY, Z, colors='k', levels=[-1, 0,1], alpha=0.5,
               linestyles=['--', '-', '--'])
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(loc='upper left')
plt.title('SVM示意图')
plt.show()

运行结果如下：
圆集的决策曲线

目前代码运行相对较慢，但是结果可收敛，等博主有空再回来优化下 T.T

感谢大家花时间阅读！
文章总体结构参考: 【机器学习】支持向量机 SVM（非常详细） - 阿泽的文章 - 知乎

鼓手星子

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
SVM算法原理解析，计算过程和代码实现

SVM（支持向量机）是一种二分类模型，虽然目前运用较少，但是其算法思想中所运用到的凸优化问题，向量空间和优化方法的各种思想对博主的进一步学习有很大的影响。本文是博主综合各方知识和信息，对SVM的算法过程逐步解析，过程可能会有一些错漏，欢迎大家批评指正。SVM的基本思想是在样本的向量空间中寻找一个超平面，使得两类样本被分割在平面的两端；这样的平面理论上有无穷多个，任一个超平面对应的判别模型为感知机。而为了提高超平面的鲁棒性，需要寻找一个最优的超平面：两侧距离超平面最近的样本点到超平面的距离被最大化了；这种最
复制链接

扫一扫