机器学习西瓜书&南瓜书支持向量机

includeSteven

已于 2022-04-08 15:37:38 修改

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：机器学习人工智能 svm

于 2022-03-31 22:53:00 首次发布

本文链接：https://blog.csdn.net/weixin_47802917/article/details/123885957

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文深入探讨了支持向量机（SVM）的概念，包括最大间隔策略、对偶问题、核函数的使用以及软间隔处理。SVM寻找最优超平面以最大化样本的分类间隔，并通过核函数解决非线性可分问题。此外，介绍了软间隔允许一定程度的错误容忍，以提高模型泛化能力。

摘要由CSDN通过智能技术生成

机器学习西瓜书&南瓜书支持向量机

1. 间隔与支持向量

给定训练样本集 $D={(\boldsymbol{x}_1, y_1), (\boldsymbol{x}_2, y_2), ..., (\boldsymbol{x}_m, y_m)}, y_i \in {-1, +1}$ ，分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开。同时尽可能使超平面对训练样本局部扰动的“容忍”性最好。

在样本空间中，划分超平面可通过如下线性方程描述：
$\boldsymbol{\omega}^T\boldsymbol{x} + b = 0$
其中 $\boldsymbol{\omega}=(\omega_1; \omega_2; ...; \omega_d)$ 为法向量，决定了超平面的方向；b为位移项，决定了超平面与原点之间的距离，样本中任意点 $\boldsymbol{x}$ 到超平面 $(\boldsymbol{\omega}, b)$ 的距离可写为：
$\frac{\left|\boldsymbol{\omega}^T\boldsymbol{x}+b\right|}{\left|\left|\boldsymbol{\omega}\right|\right|}$
假设超平面 $(\boldsymbol{\omega}, b)$ 能将训练样本正确分类，即对于 $(\boldsymbol{x_i}, y_i) \in D$ ，若 $y_i = +1$ ，则有 $\boldsymbol{\omega}^T\boldsymbol{x_i}+b>0$ ；若 $y_i = -1$ ，则有 $\boldsymbol{\omega}^T\boldsymbol{x_i}+b<0$ 。令：
$\begin{cases} \boldsymbol{\omega}^T\boldsymbol{x}_i+b\geq +1, y_i= +1 \\ \boldsymbol{\omega}^T\boldsymbol{x}_i+b\leq -1, y_i= -1 \\ \end{cases}$
如下图，距离超平面最近的训练样本点使上述成立，它们被称为“支持向量”(support vector)，两个异类支持向量到超平面的距离之和为：

在这里插入图片描述

$\gamma = \frac{2}{\left|\left|\boldsymbol{\omega}\right|\right|}$
显然前面找到“容忍”性最好，即找到具有“最大间隔”(maximum margin)的划分超平面，也就是要找到满足(6.3)式约束的 $\boldsymbol{\omega}$ 和b，使得 $\gamma$ 最大，即：
$max_{\boldsymbol{\omega}, b}\frac{2}{\left|\left|\boldsymbol{\omega}\right|\right|} \\ s.t. y_i(\boldsymbol{\omega}^T\boldsymbol{x}_i +b) \geq 1, i = 1, 2, ..., m.$
等价于：
$min_{\boldsymbol{\omega}, b}\frac{1}{2}\left|\left|\boldsymbol{\omega}\right|\right|^2 \quad\quad(6.6) \\ s.t. y_i\boldsymbol{\omega}^T\boldsymbol{x}_i + b \geq 1, i = 1, 2, ..., m.$
这就是支持向量机(Support Vector Machine，简称SVM)的基本型。

2. 对偶问题

2.1 模型定义

对式(6.6)使用拉格朗日乘子法可得其“对偶问题”(dual problem)如下式：
$max_{\alpha}\sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j \quad\quad(6.11)\\ s.t. \sum_{i=1}^m\alpha_iy_i=0, \\ \alpha \geq 0, i = 1, 2, ..., m$
解出 $\alpha$ 后，求出 $\boldsymbol{\omega}$ 与b即可得到模型：
$f(\boldsymbol{x}) = \boldsymbol{\omega}^T\boldsymbol{x} + b \\ = \sum_{i=1}^m\alpha_iy_i\boldsymbol{x}_i^T\boldsymbol{x} + b$
上述过程需要满足KKT(Karush-Kuhn-Tucker)条件，即要求：
$\begin{cases} \alpha_i \geq 0; \\ y_if(\boldsymbol{x}_i) - 1 \geq 0; \\ \alpha_i(y_if(\boldsymbol{x}_i)-1) = 0. \end{cases}$
支持向量机的一个重要特性：训练完成后，大部分的训练样本都不需保留，最终模型仅与支持向量有关。

2.2 模型求解

针对 $\alpha$ 的求解，是一个二次规划问题，可使用通用的二次规划求解；当时该问题的规模正比于训练样本数，这会在实际任务中造成很大的开销。因此通常利用问题本身的特性进行求解，如SMO(Sequential Minimal Optimization)是其中一个著名的代表。

SMO的基本思路是先固定 $\alpha_i$ 之外的所有参数，然后求 $\alpha_i$ 上的极值。由于存在约束 $\sum_{i=1}^m\alpha_iy_i=0$ ，若固定 $\alpha_i$ 之外的其他变量，则 $\alpha_i$ 可由其他变量导出。于是，SMO每次选择两个变量 $\alpha_i$ 和 $\alpha_j$ ，并固定其他参数。这样，在参数初始化后，SMO不断执行如下步骤直至收敛：

选择一对需更新的变量 $\alpha_i$ 和 $\alpha_j$
固定 $\alpha_i$ 和 $\alpha_j$ 以外的参数，求解式(6.11)获得更新后的 $\alpha_i$ 和 $\alpha_j$

SMO采用了一个启发式：使选取的两变量所对应的样本之间的间隔最大。

SMO算法之所以高效，恰由于在固定其他参数后，仅优化两个参数的过程能做到非常高效。具体来说，仅考虑 $\alpha_i$ 和 $\alpha_j$ 时，式(6.11)中的约束可重写为：
$\alpha_iy_i + \alpha_jy_j = c, \alpha_i \geq 0, \alpha_j \geq 0$
其中
$\sum_{k\neq i,j}\alpha_ky_k$
是使 $\sum_{i=1}^m\alpha_iy_i = 0$ 成立的常数。用
$\alpha_iy_i + \alpha_jy_j = c$

3. 核函数

前面的模型讨论中，都是基于训练样本是线性可分的，即存在一个划分超平面能将训练样本正确分类。然而在现实任务中，原始样本空间内也许并不存在一个能正确划分两类样本的超平面。这个时候可以把样本从原始空间映射到更高维的特征空间，使得样本在高维的特征空间内线性可分。

如果原始空间是有限维，即属性数有限，那么一定存在一个高维特征空间使样本可分。

令 $\phi(\boldsymbol{x})$ 表示将 $\boldsymbol{x}$ 映射后的特征向量，于是，在特征空间中划分超平面所对应的模型可表示为：
$f(\boldsymbol{x}) = \boldsymbol{\omega}^T\phi(x) + b$
同理可得，类似式(6.6)，有：
$min_{\boldsymbol{\omega}, b} \frac{1}{2}\left|\left|\boldsymbol{\omega}\right|\right| \\ s.t. y_i(\boldsymbol{\omega}^T\phi(\boldsymbol{x}_i) + b) \geq 1, i = 1, 2, ..., m$
其对偶问题是：
$max_{\alpha}\sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\phi(\boldsymbol{x}_i^T)\phi(\boldsymbol{x}_j) \quad\quad(6.21) \\ s.t. \sum_{i=1}^m\alpha_iy_i = 0, \\ \alpha_i \geq 0, i = 1, 2, ..., m$
其中直接计算 $\phi(\boldsymbol{x}_i^T)\phi(\boldsymbol{x}_j)$ 通常是困难的，这个时候通过使用核函数(kernel function)来代表 $\phi(\boldsymbol{x}_i^T)\phi(\boldsymbol{x}_j)$ 的结果，即：
$\kappa(\boldsymbol{x}_i, \boldsymbol{x}_j) <= \phi(\boldsymbol{x}_i^T)\phi(\boldsymbol{x}_j)$
因此(6.21)可以重写：
$max_{\alpha}\sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\kappa(\boldsymbol{x}_i, \boldsymbol{x}_j) \quad\quad(6.21) \\ s.t. \sum_{i=1}^m\alpha_iy_i = 0, \\ \alpha_i \geq 0, i = 1, 2, ..., m$
求解后可得：
$f(\boldsymbol{x}) = \boldsymbol{\omega}^T\phi(\boldsymbol{x}) + b \\ = \sum_{i=1}^m\alpha_iy_i\phi(\boldsymbol{x}_i)^T\phi(\boldsymbol{x}) + b \\ = \sum_{i=1}^m\alpha_iy_i\kappa(\boldsymbol{x}_i, \boldsymbol{x}_j) + b$
“核函数选择”是SVM的最大变数，以下列数几种常用的核函数：

在这里插入图片描述

基本的经验：若对文本数据通常使用线性核，情况不明时，可先尝试高斯核。

此外，核函数还可以通过函数组合的阿斗，如：

若 $\kappa_1$ 和 $\kappa_2$ 为核函数，则对于任意正数 $\gamma_1$ 、 $\gamma_2$ ，其线性组合：

$\gamma_1\kappa_1 + \gamma_2\kappa_2$

也是核函数。

若 $\kappa_1$ 和 $\kappa_2$ 为核函数，则核函数的直积也是核函数：

$\kappa_1 \otimes \kappa_2(\boldsymbol{x}, \boldsymbol{z}) = \kappa_1(\boldsymbol{x}, \boldsymbol{z})\kappa_2(\boldsymbol{x}, \boldsymbol{z})$

若 $\kappa_1$ 是核函数，则对于任意函数 $g(\boldsymbol{x})$ 也是核函数：

$\kappa(\boldsymbol{x}, \boldsymbol{z}) = g(\boldsymbol{x})\kappa_1(\boldsymbol{x}, \boldsymbol{z})g(\boldsymbol{z})$

4. 软间隔与正则化

硬间隔(hard margin)：要求所有样本均满足约束

软间隔(soft margin)：允许某些样本不满足约束，约束如下：
$y_i(\boldsymbol{\omega}^T\boldsymbol{x}_i + b) \geq 1$
为了表达该式，可以通过引入一个惩罚系数C>0， $\mathit{l}_{0/1}$ 是“0/1损失函数”，优化目标可写为：
$min_{\boldsymbol{\omega}, b}\frac{1}{2}\left|\left|\boldsymbol{\omega}\right|\right| + C\sum_{i=1}^m \mathit{l}_{0/1}(y_i(\boldsymbol{\omega}^T\boldsymbol{x}_i+b)-1) \\$

$\mathit{l}_{0/1} = \begin{cases} 1, \quad if\quad z < 0; \\ 0, \quad otherwise \end{cases}$
显然，当C无穷大时，迫使所有样本均满足约束；当C取有限值，允许一些样本不满足约束。但是 $\mathit{l}_{0/1}$ 非凸、非连续，通常使用其他函数来代替它，称为“替代损失”(surrogate loss)。

常用的替代损失函数如下图：

在这里插入图片描述

而“软间隔支持向量机”使用的是hinge损失，优化目标是：
$min_{\boldsymbol{\omega},b} \frac{1}{2}\left|\left|\omega\right|\right|^2 + C\sum_{i=1}^mmax(0, 1-y_i(\boldsymbol{\omega}^T\boldsymbol{x}_i+b))$
引入“松弛变量”(slack variables) $\xi\geq0$ ，可将上式重写：
$min_{\boldsymbol{\omega},b，\xi_i} \frac{1}{2}\left|\left|\omega\right|\right|^2 + C\sum_{i=1}^m\xi_i$
显然对于每一个样本都有一个松弛变量，用以表征该样本不满足约束的程度，同样该问题仍然是一个二次规划问题，通过拉克朗日乘子法得到对偶问题：
$max_{\boldsymbol{\alpha}}\sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j^T \\ s.t. \sum_{i=1}^m\alpha_iy_i = 0, \\ 0 \leq \alpha_i \leq C, i = 1, 2, ..., m.$
上式跟硬间隔下的对偶问题唯一的差别在于对偶变量的约束不同，本问题是 $\leq \alpha_i \leq C$ ，硬间隔下的约束是 $\leq \alpha_i \leq C$ ，对软间隔的KKT条件要求：
$\begin{cases} \alpha_i \geq 0, \mu_i \geq 0, \\ y_if(\boldsymbol{x}_i) - 1 + \xi_i \geq 0, \\ \alpha_i(y_if(\boldsymbol{x}_i)-1+\xi_i) = 0, \\ \xi \geq 0, \mu_i\xi_i = 0 \end{cases}$
同样的可以使用其他的替换损失函数，它们得到的模型的性质与所用的替代函数直接相关，但它们具有一个共性：优化目标中的第一项用来描述划分超平面的“间隔”大小，另一项则用来表示训练集上的误差，可写为更一般的形式：
$min_f\Omega(f) + C\sum_{i=1}^m\mathit{l}(f(\boldsymbol{x}_i), y_i)$
其中 $\Omega(f)$ 称为结构风险(structural risk)，用来描述模型f的某些性质；第二项称为“经验风险”(empirical risk)，用来描述模型与训练数据的契合程度；C用于对二者进行这种。

上式称为“正则化”(regularization)问题， $\Omega(f)$ 为正则化项，C为正则化常数。 $L_p$ 范数(norm)是常用的正则化项。

5. 支持向量回归

传统的回归模型通常基于模型输出 $f(\boldsymbol{x})$ 与真实输出y之间的差别来计算损失，而支持向量回归(Support Vector Regression，简称SVR)假设我们能容忍 $f(\boldsymbol{x})$ 与y之间最多有 $\epsilon$ 的偏差，即仅当 $f(\boldsymbol{x})$ 与y之间差别绝对值大于 $\epsilon$ 才计算损失，于是SVR问题可表示为：
$min_{\boldsymbol{\omega}, b}\frac{1}{2}\left|\left|\omega\right|\right|^2 + C\sum_{i=1}^m\mathit{l}_\epsilon(f(\boldsymbol{x}_i) - y_i)$
其中C为正则化常数， $\mathit{l}_\epsilon$ 是 $\epsilon-$ 不敏感损失( $\epsilon$ -insensitive loss)函数，如下：
$\mathit{l}_\epsilon = \begin{cases} 0, \quad\quad\quad if \left|z\right| \leq \epsilon;\\ \left|z\right| - \epsilon, \quad otherwise \end{cases}$
引入松弛变量 $\xi_i$ 和 $\hat\xi_i$ ，可将上式重写为
$min_{\boldsymbol{\omega}, b}\frac{1}{2}\left|\left|\omega\right|\right|^2 + C\sum_{i=1}^m(\xi_i + \hat\xi_i) \\ s.t. f(\boldsymbol{x}_i) - y_i \leq \epsilon + \xi_i,\\ y_i - f(\boldsymbol{x}_i) \leq \epsilon + \hat\xi_i, \\ \xi_i \geq 0, \hat\xi_i \geq 0, i = 1, 2, ..., m$
类似地，通过拉格朗日乘子法可得其对偶问题为：
$max_{\alpha, \hat\alpha} \sum_{i=1}^my_i(\hat\alpha_i-\alpha_i)-\epsilon(\hat\alpha_i+\alpha) \\ -\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m(\hat\alpha_i-\alpha_i)(\hat\alpha_j-\alpha_j)\boldsymbol{x}_i^T\boldsymbol{x}_j \\ s.t. \sum_{i=1}^m(\hat\alpha_i-\alpha_i)=0 \\ 0 \leq \alpha_i,\hat\alpha_i \leq C$
需满足以下KKT条件：

在这里插入图片描述

最终的SVR的解形如：
$f(\boldsymbol{x}) = \sum_{i=1}^m(\hat\alpha_i-\alpha)\boldsymbol{x}_i^T\boldsymbol{x} + b$
若考虑特征映射形式，则相应的，SVR的解为：
$f(\boldsymbol{x}) = \sum_{i=1}^m(\hat\alpha_i-\alpha)\kappa(\boldsymbol{x}_i, \boldsymbol{x}) + b$