[基本功]支持向量机（SVM）理论知识

最新推荐文章于 2023-12-21 18:11:30 发布

女青年学习日记

最新推荐文章于 2023-12-21 18:11:30 发布

阅读量580

点赞数 1

分类专栏：基本功&经典方法文章标签：支持向量机机器学习人工智能 svm

本文链接：https://blog.csdn.net/weixin_52093054/article/details/122000450

版权

基本功&经典方法专栏收录该内容

20 篇文章 0 订阅

订阅专栏

本文参考李航的《统计学习方法》撰写

文章目录

一、SVM的主要特征
二、硬间隔SVM（线性可分支持向量机）
- 训练目标
- 对偶算法进行学习
三、软间隔SVM（线性支持向量机）
四、非线性SVM（线性不可分支持向量机）

一、SVM的主要特征

二分类模型
定义在特征空间上的间隔最大的线性分类器（间隔最大使它有别于感知机）
判别模型，与概率无关
SVM有三宝，间隔、对偶、核技巧
核技巧可以使SVM成为实质上的非线性分类器

二、硬间隔SVM（线性可分支持向量机）

训练目标

假设给定一个训练数据集：
$T=\{(x_1,y1),(x_2,y_2),...,(x_N,y_N)\}$
其中， $x_i \in X=R^n$ ， $y_i \in Y = \{+1,-1\}$

对于线性可分的数据，我们想要得到的分类器：
$f (w) = s i g n (w x + b)$
$w x + b = 0$ 就是分离超平面。于是我们需要训练得到该模型的参数，也就是w和b。

这里介绍两个概念，分别是函数间隔和几何间隔：

函数间隔：

超平面(w,b)关于样本点 $x_i,y_i)$ 的函数间隔为 $\hat{\gamma_i}=y_i(w·x_i+b)$

超平面(w,b)关于训练数据集 $T$ 的函数间隔为 $\hat{\gamma}=min\hat{\gamma_i}$

几何间隔：

超平面(w,b)关于样本点 $x_i,y_i)$ 的几何间隔为 $\gamma_i=y_i(\frac{w}{||w||}x_i+\frac{b}{||w||})$

超平面(w,b)关于训练数据集 $T$ 的几何间隔为 $\gamma = min\gamma_i$

SVM的训练目标是①能够正确划分训练数据集②使几何间隔最大（硬间隔最大化），整理成数学形式就是：
$max_{w,b}\gamma \\s.t.\; y_i * \frac{1}{||w||}(w·x_i+b)>=\gamma$
也就等价于：
$max_{w,b} \frac{\hat{\gamma}}{||w||} \\s.t.\;y_i(w·x_i+b)>=\hat{\gamma}$
注意到函数间隔 $\hat{\gamma}$ 的取值并不影响优化问题的解，不妨取1代入，并将最大化 $\frac{1}{||w||}$ 等价替换成最小化 $\frac{1}{2}||w||^2$
$min_{w,b} \frac{1}{2}||w||^2 \\s.t.\;y_i(w·x_i+b)-1>=0$
这是一个凸二次规划问题（目标函数为二次函数；约束函数是线性函数）。

这里再介绍两个概念：

支持向量：

在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例。

即使 $y_i(w·x_i+b)-1=0$ 成立的点

在决定分离超平面时只有支持向量起作用，其他实例点并不起作用，故该模型称为支持向量机

间隔：

$w \cdot x + b = 1$ 和 $w \cdot x + b = - 1$ 的距离，等于 $\frac{2}{||w||}$

对偶算法进行学习

对偶算法：为了求解SVM的最优化问题，将其作为原始问题，应用拉格朗日对偶性，通过求解对偶问题得到原始问题的最优解
对偶目的：①对偶问题往往更容易求解；②自然引入核函数，推广到非线性分类问题
步骤：

1、构建拉格朗日函数：
$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^N\alpha_iy_i(w·x_i+b)+\sum_{i=1}^{N}\alpha_i \\其中\alpha_i>=0$
2、原始问题（极小极大问题）：
$min_{w,b}max_{\alpha}L(w,b,\alpha) \\s.t. \alpha_i >= 0$
3、对偶问题（极大极小问题）：
$max_{\alpha}min_{w,b}L(w,b,\alpha) \\s.t.\alpha_i>=0$
4、求 $min_{w,b}L(w,b,\alpha)$ ：

令偏导数为0：
$\nabla_{w}L(w,b,\alpha)=w-\sum_{i=1}^N\alpha_iy_ix_i=0$

$\nabla_bL(w,b,\alpha)=-\sum_{i=1}^N\alpha_iy_i=0$

得到：
$w=\sum_{i=1}^N\alpha_iy_ix_i \\\sum_{i=1}^N\alpha_iy_i=0$
代入拉格朗日函数，得到：
$L(w,b,\alpha)=\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i·x_j)-\sum_{i=1}^N\alpha_iy_i((\sum_{j=1}^N\alpha_jy_jx_j)·x_i+b)+\sum_{i=1}^N\alpha_i \\=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i·x_j)+\sum_{i=1}^N\alpha_i$
即：
$min_{w,b}L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i·x_j)+\sum_{i=1}^N\alpha_i$
5、求 $max_{\alpha}min_{w,b}L(w,b,\alpha)$ ，即对偶问题：
$max_{\alpha}-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i·x_j)+\sum_{i=1}^N\alpha_i \\s.t.\;\alpha_i>=0\;,\;\\\sum_{i=1}^N\alpha_iy_i=0$
等价于：
$⭐min_{\alpha}\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i·x_j)-\sum_{i=1}^N\alpha_i \\s.t.\;\alpha_i>=0\;,\;\\\sum_{i=1}^N\alpha_iy_i=0$
⭐可由此求得最优解 $\alpha^*$

6、由于强对偶关系成立，故满足KKT条件，故可由KKT条件（下面有详细说明）求得 $w, b$ 的值：
$\nabla_wL(w^*,b^*,\alpha^*)=w^*-\sum_{i=1}^N\alpha_i^*y_ix_i=0 \\\nabla_bL(w^*,b^*,\alpha^*)=-\sum_{i=1}^N\alpha_i^*y_i=0 \\\alpha_i^*(y_i(w^*·x_i+b^*)-1)=0 \\y_i(w^*·x_i+b^*)-1>=0 \\\alpha_i^*>=0$
由此得：
$⭐w^*=\sum_i\alpha_i^*y_ix_i$
至少有一个 $\alpha_j^*>0$ （假设 $\alpha^*=0$ ，则 $w^*=0$ ，显然不行），故有对应的：
$y_j(w^*·x_j+b^*)-1=0$

$⭐b^* = y_j-w^*·x_j=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i·x_j)$

7、得到分离超平面：
$⭐\sum_{i=1}^N\alpha_i^*y_i(x·x_i)+b^*=0$
得到分类决策函数：
$⭐f(x)=sign(\sum_{i=1}^N\alpha_i^*y_i(x·x_i)+b^*)$
可以发现，分类决策函数只依赖于输入x和训练样本输入的内积，且只受支持向量（（ $\alpha_i^*>0$ ）的样本点）影响。

8、小结：

对于线性可分训练数据集，首先求对偶问题的解 $\alpha^*$ ，再利用KKT条件求得 $w^*,b^*$ ，从而得到分离超平面及分类决策函数。
原始问题和对偶问题的关系：
- 弱对偶关系：
  $min\;maxL>=max\;minL$
- 强对偶关系：
  $max\;minL=min\;maxL$
- 补充定理：
  - 假设原问题为：
  $min_xf(x) \\s.t. \;c_i(x)<=0\;,\\h_j(x)=0$
  
  拉格朗日函数为：
  $L(x,\alpha,\beta)=f(x)+\sum_{i=1}^k\alpha_ic_i(x)+\sum_{j=1}^l\beta_jh_j(x)$
  - 定理1：如果① $f (x)$ 和 $x_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数；②不等式约束 $c_i(x)$ 严格可行（存在 $x$ ，对所有 $i$ 有 $c_i(x)<0$ ），那么存在 $x^*,\alpha^*,\beta^*$ 使得 $x^*$ 是原问题的解， $\alpha^*,\beta^*$ 为对偶问题的解，且 $p^*=d^*=L(x^*,\alpha^*,\beta^*)$
  - 定理2：假设 $f (x)$ 和 $x_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数，并且不等式约束 $c_i(x)$ 严格可行，则 $x^*,\alpha^*,\beta^*$ 分别是原始问题和对偶问题的解的充分必要条件是 $x^*,\alpha^*,\beta^*$ 满足以下KKT条件：
    $\nabla_xL(x^*,\alpha^*,\beta^*)=0 \\\alpha_i^*c_i(x^*)=0 \\c_i(x^*)<=0 \\\alpha_i^*>=0 \\h_j(x^*)=0$
- 简单来说，若原始问题满足定理1，即可使得强对偶关系成立，即原问题和对偶问题等价

三、软间隔SVM（线性支持向量机）

训练目标

针对：假设训练数据集不是线性可分的，通常情况是训练数据中有一些特异点，将这些特异点取出后，剩下大部分的样本点组成的集合是线性可分的。
线性不可分意味着某些样本点 $x_i,y_i)$ 不能满足函数间隔大于等于1的约束条件。对此，可以对每个样本点引进一个松弛变量 $\xi_i>=0$ ，使得函数间隔加上松弛变量大于等于1。约束条件变为 $y_i(w·x_i+b)>=1-\xi_i$
对每个松弛变量支付一个代价。目标函数变为 $\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i$ 。 $C > 0$ 称为惩罚参数。这样目标函数最小化：①使间隔尽量大；②误分类点的个数尽量小
故原始问题：(w解唯一，b解可能不唯一，而是存在于一个区间)
$min_{w,b,\xi}\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i \\s.t.\;y_i(w·x_i+b)>=1-\xi_i \\\xi_i>=0$

对偶算法进行学习

步骤：

1、拉格朗日函数：
$L(w,b,\xi,\alpha,\mu)=\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i-\sum_{i=1}^N\alpha_i(y_i(w·x_i+b)-1+\xi_i)-\sum_{i=1}^N\mu_i\xi_i \\其中，\alpha_i>=0，\mu_i>=0$
2、求 $min_{w,b,\xi}L(w,b,\xi,\alpha,\mu)$
$\nabla_wL(w,b,\xi,\alpha,\mu)=w-\sum_{i=1}^N\alpha_iy_ix_i=0 \\\nabla_bL(w,b,\xi,\alpha,\mu)=-\sum_{i=1}^N\alpha_iy_i=0 \\\nabla_{\xi_i}L(w,b,\xi,\alpha,\mu)=C-\alpha_i-\mu_i=0$
故有：
$min_{w,b,\xi}L(w,b,\xi,\alpha,\mu)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i·x_j)+\sum_{i=1}^N\alpha_i$
3、再对 $\alpha$ 求极大即可得到对偶问题：
$min_\alpha\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i·x_j)-\sum_{i=1}^N\alpha_i \\s.t.\;\sum_{i=1}^N\alpha_iy_i=0 \\0<=\alpha_i<=C$
据此可求得 $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)T$

4、根据KKT条件求得 $w^*,b^*$ ：
$\nabla_wL(w^*,b^*,\xi^*,\alpha^*,\mu^*)=w^*-\sum_{i=1}^N\alpha_i^*y_ix_i=0 \\\nabla_bL(w^*,b^*,\xi^*,\alpha^*,\mu^*)=-\sum_{i=1}^N\alpha_i^*y_i=0 \\\nabla_{\xi_i}L(w^*,b^*,\xi^*,\alpha^*,\mu^*)=C-\alpha_i^*-\mu_i^*=0 \\\alpha_i^*(y_i(w^*·x_i+b^*)-1+\xi_i^*)=0 \\\mu_i^*\xi_i^*=0 \\y_i(w^*·x_i+b^*)-1+\xi_i^*>=0 \\\xi_i^*>=0 \\\alpha_i^*>=0 \\\mu_i^*>=0$

$w^*=\sum_{i=1}^N\alpha_i^*y_ix_i \\b^*=y_j-\sum_{i=1}^Ny_i\alpha_i^*(x_i·x_j) \\其中(x_j,y_j)为0<\alpha_j^*<C对应的样本点$
5、分类超平面：
$\sum_{i=1}^N\alpha_i^*y_i(x·x_i)+b^*=0$
分类决策函数：
$f(x)=sign(\sum_{i=1}^N\alpha_i^*y_i(x·x_i)+b^*)$
软间隔的支持向量或者在间隔边界上，或者在间隔边界与分离超平面之间，或者在分离超平面误分一侧。若 $\alpha_i^*<C$ ，则 $\xi_i=0$ ，样本点恰好落在间隔边界上；若 $\alpha_i^*=0$ ，则该样本点不是支持向量；若 $\alpha_i^*=C,0<\xi_i<1$ ，则分类正确，样本点在间隔边界和分离超平面之间；若 $\alpha_i^*=C,\xi_i=1$ ,则样本点落在分离超平面上；若 $\alpha_i^*=C,\xi_i>1$ ，则样本点落在分离超平面误分一侧

合页损失函数

线性支持向量机的另一种解释，最小化以下目标函数：
$\sum_{i=1}^N[1-y_i(w·x_i+b)]_++\lambda||w||^2$
第一项为经验损失或经验风险；第二项是系数为 $\lambda$ 的 $w$ 的 $L_2$ 范数，是正则化项

合页损失函数(hinge loss function)：

$L(y(w·x+b))=[1-y(w·x+b)]_+$

下标“+”表示：

$[z]_+= \begin{cases} z,z>0 \\0,z<=0 \end{cases}$

含义：当样本点 $x_i,y_i)$ 被正确分类且函数间隔 $y_i(w·x_i+b)>1$ 时，损失是0，否则损失是 $1-y_i(w·x_i+b)$

合页损失函数形状像一个合页，故名

与0-1损失函数相比：0-1损失函数是二分类问题真正的损失函数，二合页损失函数是其上界。由于0-1损失函数不是连续可导的，直接优化其目标函数比较困难，可以认为线性支持向量机是优化由0-1损失函数的上界（合页损失函数）构成的目标函数。这里的上界损失函数又称为代理损失函数。

与虚线的损失函数 $y_i(w·x_i+b)]_+$ 相比：虚线当样本点被正确分类时，损失是0，否则损失是 $y_i(w·x_i+b)$ 。相比之下，合页损失函数不仅要分类正确，而且确信度足够高时损失才是0。也就是说，合页损失函数对学习有更高的要求。

四、非线性SVM（线性不可分支持向量机）

简要介绍

核技巧不仅应用于支持向量机，也应用于其它统计学习问题
如果能用一个超曲面将正负例正确分开，则称这个问题为非线性可分问题
核技巧概述：首先用一个变换将原空间的数据映射到新空间；然后在新空间里用线性分类学习方法训练模型

核函数定义：设 $X$ 是输入空间， $H$ 为特征空间，如果存在一个从 $X$ 到 $H$ 的映射
$\phi(x)=X→H$
使得对所有 $x,z\in X$ ，函数 $K (x, z)$ 满足条件：
$K(x,z)=\phi(x)·\phi(z)$
则称 $K (x, z)$ 为核函数， $\phi(x)$ 为映射函数。
核技巧想法：只定义核函数 $K (x, z)$ ，而不显式定义 $\phi$ 。通常直接计算 $K (x, z)$ 更容易。
对于给定的核函数，特征空间和映射函数的取法并不唯一
注意到在线性支持向量机的对偶问题中，无论是目标函数还是决策函数（分离超平面）都只涉及输入实例和实例之间的内积，用核函数代替内积的对偶问题的目标函数为：
$W(\alpha)=\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i$
用核函数代替内积的决策函数：
$f(x)=sign(\sum_{i=1}^N\alpha_i^*y_iK(x_i,x)+b^*)$
等价于将原来的输入空间变换到一个新的特征空间，在新的特征空间里训练线性支持向量机。
当映射函数是非线性函数时，学习到的含有核函数的支持向量机是非线性分类模型
在实际应用中，往往依赖领域知识直接选择核函数，核函数选择的有效性需要通过实验验证。
函数 $K (x, z)$ 需要满足什么条件才能成为核函数？
- 通常所说的核函数就是正定核函数
- 正定核的充要条件：设 $K : X * X \to R$ 是对称函数，则 $K (x, z)$ 为正定核函数的充要条件是对任意 $x_i \in X$ ， $K (x, z)$ 对应的Gram矩阵 $K=[K(x_i,x_j)]_{m*m}$ 是半正定矩阵
- 但对一个具体函数来说，验证它是否为正定核函数并不容易。在实际问题中往往应用已有的核函数

常用核函数

1、多项式核函数
$K(x,z)=(x·z+1)^p$

对应的支持向量机是一个p次多项式分类器

分类决策函数：
$f(x)=sign(\sum_{i=1}^N\alpha_i^*y_i(x_i·x+1)^p+b^*)$

2、高斯核函数
$K(x,z)=exp(-\frac{||x-z||^2}{2\sigma^2})$

对应的支持向量机是高斯径向基函数分类器

分类决策函数：
$f(x)=sign(\sum_{i=1}^N\alpha_i^*y_iexp(-\frac{||x-z||^2}{2\sigma^2})+b^*)$

训练算法

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$

输出：分类决策函数

算法：

（1）选取适当的（正定）核函数 $K (x, z)$ 和适当的参数C，构造并求解最优化问题：
$min_\alpha\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i \\s.t.\;\sum_{i=1}^N\alpha_iy_i=0 \\0<=\alpha_i<=C$
求得最优解 $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)T$

（2）选择 $\alpha^*$ 的一个正分量 $0<\alpha_j^*<C$ ，计算
$b^*=y_j-\sum_{i=1}^N\alpha_i^*y_iK(x_i,x_j)$
（3）构造决策函数：
$f(x)=sign(\sum_{i=1}^N\alpha_i^*y_iK(x,x_i)+b^*)$

女青年学习日记

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
[基本功]支持向量机（SVM）理论知识

本文参考李航的《统计学习方法》撰写文章目录SVM的主要特征硬间隔SVM（线性可分支持向量机）训练目标对偶算法进行学习软间隔SVM（线性支持向量机）训练目标对偶算法进行学习合页损失函数非线性SVM（线性不可分支持向量机）简要介绍常用核函数训练算法SVM的主要特征二分类模型定义在特征空间上的间隔最大的线性分类器（间隔最大使它有别于感知机）判别模型，与概率无关SVM有三宝，间隔、对偶、核技巧核技巧可以使SVM成为实质上的非线性分类器硬间隔SVM（线性可分支持向量机）训练目标假设给定一个训练
复制链接

扫一扫