西瓜书学习第六章---SVM

支持向量机详解：间隔、核函数与优化

最新推荐文章于 2025-02-26 21:56:42 发布

原创最新推荐文章于 2025-02-26 21:56:42 发布 · 829 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#支持向量机 #学习 #机器学习

本文深入介绍了支持向量机（SVM）的基本思想，包括分类学习的超平面概念、支持向量及其间隔。通过拉格朗日乘子法，阐述了SVM的对偶问题求解过程，详细解析了KTT条件。同时，解释了核函数的作用，如线性核、多项式核、高斯核等，并探讨了软间隔和正则化的概念，以及不同损失函数的应用。此外，简要提及了支持向量回归（SVR）以及核方法在非线性分类中的应用。

一、间隔与支持向量

1.1 分类学习的基本思想

分类任务的基本思想是在给定的数据集上用一个超平面 $w^{T}x+b=0$ 将数据集分为两类，显然在一个线性可分的数据集上，能够做到这种效果的超平面有很多，如下图：
在这里插入图片描述

1.1 有多个可以完成分类任务的超平面

1.2 支持向量机的思想

相关概念
支持向量： 距离超平面最近的若干训练样本，如下图在虚线上的正负样本
间隔： 两个异类的支持向量到超平面的距离之和 $\gamma =\frac{2}{||w||}$ 被称为间隔

在这里插入图片描述

1.2 支持向量和间隔的图解

支持向量机的思想
支持向量机（SVM）的目的就是在上述诸多超平面中找到一条泛化能力最好的，即离正负样本距离间隔最大的那一个超平面，如图1.2中的那一条黑线就是满足条件的，它对于新的样本点的抗干扰能力是最强的，在图1.1中其他超平面在识别处于正负样本分界线之内的新样本时错误率都会非常高
数学原理
3.1 超平面的分类数学原理
在超平面的表达式 $w^{T}x+b=0$ 中， $w=(w_{1};w_{2};...;w_{d})$ 是超平面的法向量，它所决定是超平面的方向， $b$ 是偏置项，决定了超平面和原点之间的距离，所以 $w 和 b$ 两个参数可以确定一个超平面，而设样本点到超平面的距离 $r=\frac{|w^{T}x+b|}{||w||}$
所以给定一个样本（ $x_{i},y_{i}$ ）,当一个超平面可以将样本正确分类时，有
$\begin{cases} & \text w^{T}x+b\ge +1, y_{i}=+1;\\ & \text w^{T}x+b\le +1, y_{i}=-1 \end{cases}$
3.2 支持向量机的数学原理
根据支持向量机的定义，要找到一个最大间隔的划分超平面，等价于求解能让 $\gamma最大的参数w和b$ ，即
$\begin{align*} \\\max_{w,b}\frac{2}{||w||} \\s.t. y_{i}\left ( w^{T}x_{i}+b\right) \ge 1,i=1,2,..,m \end{align*}$
为了求解方便，上式等价于最小化 $w||^{2}$ ，即等价于
$\begin{align*} \\\min_{w,b}\frac{1}{2}||w||^{2} \\s.t. y_{i}\left ( w^{T}x_{i}+b\right) \ge 1,i=1,2,..,m \end{align*}$
上式便是SVM的数学表达，显然它是一个二次凸优化问题

二、对偶问题

2.1 求解过程

本节主要讲述求解能够使 $\gamma最大的w和b$ ，使用的方法是拉格朗日算子法，能够得到SVM数学表达的对偶问题，即给每个约束条件增加一个拉格朗日乘子 $\alpha_{i}\ge0$ ，所以根据SVM数学表示得到 $L(w,b,\alpha)=\frac{1}{2}||w||^{2}+\sum_{i=1}^{m}\alpha _{i}\left ( 1-y_{i}\left ( w^{T}x_{i+b} \right ) \right )$
然后 $L$ 函数对 $w 和 b$ 求偏导，可得到
$w=\sum_{i=1}^{m} \alpha_{i}y_{i}x_{i}$
$0=\sum_{i=1}^{m}\alpha_{i}y_{i}$
（详细计算结果见南瓜书对应章节）
将计算得到的 $w 和 b 代入到 L$ 中就可以得到SVM数学表达的对偶问题
$\max _{\boldsymbol{\alpha}} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}$
$\begin{array}{ll} \text { s.t. } & \sum_{i=1}^{m} \alpha_{i} y_{i}=0 \\ & \alpha_{i} \geqslant 0, \quad i=1,2, \ldots, m \end{array}$
显然，上述对偶问题的本质是一个二次规划问题，现在有很多高效的算法，比如SMO算法（详细介绍可见西瓜书p124）可以来解决二次规划问题，可以根据上述公式求得
$\begin{aligned} f(\boldsymbol{x}) &=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}+b \end{aligned}$

2.2 KTT 条件

在2.1中所求解得到的 $\alpha_{i}$ 就是SVM原型中样本（ $x_{i},y_{i}$ ）的拉格朗日乘子，而且由于原式中有不等式的约束条件，所以在求解上述对偶问题时要遵循KTT 条件，即要满足如下不等式
$\left\{\begin{array}{l} \alpha_{i} \geqslant 0 \\ y_{i} f\left(\boldsymbol{x}_{i}\right)-1 \geqslant 0 \\ \alpha_{i}\left(y_{i} f\left(\boldsymbol{x}_{i}\right)-1\right)=0 \ldots \end{array}\right.$
所以根据上式能够看出SVM的一个性质，即在训练完毕之后，只需要保留支持向量就行，因为最早的模型只和支持向量有关系

三、核函数

3.1 核函数的作用

核函数 $\kappa \left ( \cdot , \cdot \right )$ 的作用概括来说就是能够将低维的非线性可分的数据集变为高维的线性可分的数据集，如下图
在这里插入图片描述

3.1 非线性可分的异或问题经过变化之后成为了线性可分问题 可以证明，原始空间如果是有限维，那么一定有一个高维线性可分的特征空间对之对应

3.2 核函数作用的数学体现

符号定义
$\phi(x)$ : $x$ 映射之后的特征向量
$\kappa \left ( \cdot , \cdot \right )$ ：核函数的数学定义
$f(x)=w^{T}\phi(x)+b$ ：在映射空间的超平面模型表达
计算过程
第一步：首先将SVM原型改写为
$\begin{aligned} \min _{w, b} & \frac{1}{2}\|w\|^{2} \\ \text { s.t. } & y_{i}\left(w^{\mathrm{T}} \phi\left(x_{i}\right)+b\right) \geqslant 1, \quad i=1,2, \ldots, m \end{aligned}$
则能够得到对偶问题

$\operatorname{max} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \phi\left(x_{i}\right)^{\mathrm{T}} \phi\left(x_{j}\right)$

$\begin{array}{ll} \text { s.t. } & \sum_{i=1}^{m} \alpha_{i} y_{i}=0 \\ & \alpha_{i} \geqslant 0, \quad i=1,2, \ldots, m \end{array}$
第二步：使用核函数来对公式进行改写，（即 $\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left\langle\phi\left(\boldsymbol{x}_{i}\right), \phi\left(\boldsymbol{x}_{j}\right)\right\rangle=\phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi\left(\boldsymbol{x}_{j}\right)$ ）,可以得到如下改写：

$\max _{\boldsymbol{\alpha}} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) s.t. \sum_{i=1}^{m} \alpha_{i} y_{i}=0 \\ \alpha_{i} \geqslant 0, \quad i=1,2, \ldots, m \text {. }$
第三步：计算最终结果，可得
$\begin{aligned} f(\boldsymbol{x}) &=\boldsymbol{w}^{\mathrm{T}} \phi(\boldsymbol{x})+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi(\boldsymbol{x})+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} \kappa\left(\boldsymbol{x}, \boldsymbol{x}_{i}\right)+b \end{aligned}$

3.3 常用的核函数

在进行映射的过程中，选择合适的核函数是非常重要的，下面是常用的一些核函数

名称	表达式	参数
线性核	$\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}$
多项式核	$\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left(\boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}\right)^{d}$	$d\ge1$ 为多项式的次数
高斯核	$\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|^{2}}{2 \sigma^{2}}\right)$	$\sigma>0$ 为高斯核的带宽
拉普拉斯核	$\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|}{\sigma}\right)$	$\sigma>0$
Sigmoid核	$\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\tanh \left(\beta \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}+\theta\right)$	tanh为双曲正切函数， $\beta>0$ , $\theta<0$

除了上述列出的核函数之外，还可以对两个或者更多的核函数进行几何变换得到新的核函数

四、软间隔和正则化

迄今为止我们所讨论的都是理想情况下，存在一个超平面可以将样本集完美的划分开，但是在实际生活中往往不存在如何完美的数据集，所以应该允许一些错误的出现，否则即使存在一个超平面对数据集进行了完美的划分，也可能是过拟合导致的，泛化能力依旧有问题，于是规定了软间隔的概念

4.1 软间隔的概念

与前面的硬间隔相对应，软间隔允许若干样本可以不满足硬间隔中的约束条件，但是这样的样本在最大化的过程中是要控制在一定数量之中的，所以原本SVM的数学模型可以改写为
$\min _{\boldsymbol{w}, b} \frac{1}{2}\|\boldsymbol{w}\|^{2}+C \sum_{i=1}^{m} \ell_{0 / 1}\left(y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)-1\right)$

$\ell_{0 / 1}$ 是损失函数，其表达式为
$\ell_{0 / 1}(z)=\left\{\begin{array}{ll} 1, & \text { if } z<0 \\ 0, & \text { otherwise } \end{array}\right.$
所以根据上式中能够看出，C越大，由于整个式子要趋于最小化，所以损失函数这一项就必须越小，相当于要求所以样本都满足SVM原式中的约束条件，反之，C为一个合适的取值时，就允许若干样本不满足约束

4.2 常用的损失函数

由于4.1中使用的0/1损失函数的数学性质并不好，所以通常使用一些连续的凸函数且取值都是0/1损失函数的上界，下表是常用的替代损失函数

名称	表达式
hinge损失函数	$\ell_{\text {hinge }}(z)=\max (0,1-z)$
指数损失	$\ell_{e x p}(z)=\exp (-z)$
对率损失	$\ell_{\log }(z)=\log (1+\exp (-z))$

下图是三种损失函数的函数图像：
在这里插入图片描述

4.1 常见替代损失函数的图像

在引入新的损失函数之后，定义松弛变量 $\xi _{i}\ge 0$ ，则可以得到如下公式，这个公式也是软间隔SVM的表达式
$\min _{\boldsymbol{w}, b, \xi_{i}} \frac{1}{2}\|\boldsymbol{w}\|^{2}+C \sum_{i=1}^{m} \xi_{i}$

$\begin{array}{ll} \text { s.t. } & y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1-\xi_{i} \\ & \xi_{i} \geqslant 0, i=1,2, \ldots, m . \end{array}$

则可以得到软间隔SVM的对偶问题：
$\begin{aligned} \max _{\boldsymbol{\alpha}} & \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j} \\ \text { s.t. } & \sum_{i=1}^{m} \alpha_{i} y_{i}=0 \\ & 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \ldots, m \end{aligned}$
且上式要满足的KTT 条件为
$\left\{\begin{array}{l} \alpha_{i} \geqslant 0, \quad \mu_{i} \geqslant 0 \\ y_{i} f\left(\boldsymbol{x}_{i}\right)-1+\xi_{i} \geqslant 0 \\ \alpha_{i}\left(y_{i} f\left(\boldsymbol{x}_{i}\right)-1+\xi_{i}\right)=0 \\ \xi_{i} \geqslant 0, \mu_{i} \xi_{i}=0 \end{array}\right.$