【学习笔记】SVM

陈序袁

已于 2022-06-29 11:59:15 修改

阅读量283

点赞数 1

分类专栏：机器学习文章标签：支持向量机学习机器学习

于 2022-06-22 10:24:09 首次发布

本文链接：https://blog.csdn.net/weixin_49592304/article/details/125354870

版权

机器学习专栏收录该内容

26 篇文章 2 订阅

订阅专栏

1、支持向量机

①线性可分的定义：如果 $y_{i}=+1$ 或 $- 1$ ，一个训练样本集 $\left \{ (X_{i},y_{i}) \right \}$ 线性可分，是指存在 $(\omega ,b)$ 使的
$y_{i}(\omega ^{T}X_{i}+b)> 0\tag{1}$
在这里插入图片描述
②支持向量机寻找的最优分类直线应满足：
①该直线分开了两类；
②该直线最大化间隔（margin）；
③该直线处于间隔的中间，到所有支持向量的距离相等。

我们曾经学过，点 $x_{0},y_{0})$ 到超平面（一条直线） $\omega_{1}x+\omega _{2}y_{0}+b=0$ 的距离计算公式为：
$d=\frac{|\omega_{1}x_{0}+\omega _{2}y_{0}+b|}{\sqrt{\omega _{1}^{2}+\omega _{2}^{2}} }\tag{2}$
那么， $\omega$ 就成为了决定间隔距离的关键因素。

③支持向量机优化目标是需要找到最大化间隔的超平面，即：
最小化（Minimize）： $\frac{1}{2}||\omega||^{2}$ ，即最小化 $||\omega||$
限制条件： $y_{i}(\omega ^{T}X_{i}+b)> 1$
其中， $\omega =[\omega_{1},\omega_{2},...,\omega_{m}]^{T}$

以上的优化目标是一种凸优化（Convex Optimization）中的二次规划问题，即：（1）目标函数是二次项；（2）限制条件是一次项。这种凸优化问题，要么无解，要么只有唯一的最小值。
在这里插入图片描述
只要一个优化问题是凸的，我们总能找到高效快速的算法去解决它。

如果训练样本集是线性不可分的，那么以上优化问题无解，找不到 $\omega$ 与 $b$ 。在这里插入图片描述

此时需要适当放松限制条件：对于每一个训练样本及标签 $x_{i},y_{i})$ ，需要设置一个松弛变量 $\delta_{i}$ （slack variable），将限制条件公式（1）改写为：
$y_{i}(\omega ^{T}X_{i}+b)\ge 1-\delta_{i}\tag{3}$
那么优化目标也要随之发生改变，即：
最小化： $\frac{1}{2} ||\omega ||^{2}+C {\textstyle \sum_{i=1}^{N}\delta _{i}}$ 或 $\frac{1}{2} ||\omega ||^{2}+C {\textstyle \sum_{i=1}^{N}\delta _{i}^{2}}$ ，
限制条件：（1） $\delta_{i}\ge0$
（2） $y_{i}[\omega^{T}φ(x_{i})+b]\ge1-\delta_{i}$
其中 $\delta_{i}\ge0$ ， $C$ 是人为设定的比例因子。
这种在算法中需要人事先设定的参数叫做算法的超参数（Hyper Parameter）。

④支持向量机在扩大可选函数范围方面可谓独树一帜，它通过将特征空间由低维映射到高维，再在高维特征空间中用线性超平面对数据进行分类。即将训练样本由低维映射到高维后，能够增大线性可分的概率。
在这里插入图片描述
如图所示，有四个点，分别为 $X_{1}=[0,0]^{T}∈C_{1}，X_{2}=[1,1]^{T}∈C_{1}，X_{3}=[1,0]^{T}∈C_{2}，X_{4}=[0,1]^{T}∈C_{2}$ 。在图中，四个点处于二维空间中，无法找到一个超平面将两类点分开。此时，我们可以通过构造一个二维到五维的映射 $φ (x)$ ，将这四个点映射到五维空间中。
$φ(x)=[a^{2},b^{2},a,b,ab]^{T}\tag{4}$
通过映射后，得到 $φ(x_{1})=[0,0,0,0,0]^{T},φ(x_{2})=[1,1,1,1,1,]^{T},φ(x_{3})=[1,0,1,0,0]^{T},φ(x_{4})=[0,1,0,1,0]^{T}。$ 此时，这四个点就成为了线性可分的。
设 $\omega=[-1,-1,-1,-1,6]^{T},b=1$ ，根据（1）式就可以来将四个点进行分类。

⑤如果对任意两个向量 $X_{1}$ 与 $X_{2}$ ，存在 $K(X_{1},X_{2})=φ(X_{1})^{T}φ(X_{2})^{T}$ ，那么就可以将测试样本进行映射进而完成对类别的预测。其中， $K(X_{1},X_{2})$ 为核函数（kernel function）。

如存在两个二维向量 $X_{1}=[x_{11},x_{12}]^{T}$ 与 $X_{2}=[x_{21},x_{22}]^{T}$ ，映射 $φ(x)=[a^{2},ab,b^{2}]^{T}$ ，那么核函数就可以表示为：
$K(X_{1},X_{2})=φ(X_{1})^{T}φ(X_{2})\\=[x_{11}^{2},x_{11}x_{12},x_{12}^{2}][x_{21}^{2},x_{21}x_{22},x_{22}^{2}]^{T}\\=x_{11}^{2}x_{21}^{2}+x_{11}x_{12}x_{21}x_{22}+x_{12}^{2}x_{22}^{2}$

同时，核函数 $K(X_{1},X_{2})$ 能够写成 $φ(X_{1})^{T}φ(X_{2})$ 的充分必要条件为：
①交换性，可相互交换： $K(X_{1},X_{2})=K(X_{2},X_{1})$
②半正定性： $∀C_{i}(i=1\sim N)$ ，有 $\sum_{i=1}^{N}\sum_{j=1}^{N} C_{i}C_{j}K(X_{i}X_{j})\ge0$
常见的高斯核函数表达式为：
$K(X_{1},X_{2})=e^{-\frac{||X_{1}-X_{2}||^{2}}{2\sigma^{2} }}$ 在最后也总结了一些常用的核函数。

⑥为了能够在不知道映射函数 $φ (x)$ 但知道 $K(X_{1},X_{2})$ 时也能够求解优化问题，我们需要引入优化理论。

原问题（Prime Problem）

最小化（Minimize）： $f(\omega)$
限制条件（Subject to）： $g_{i}(\omega)\le0 (i=1\sim K)$ $h_{i}(\omega)=0(i=1\sim m)$
这种定义十分的普适与宽泛，自变量为 $\omega$ 。

对偶问题（Dual Problem）

定义：
$L(\omega,\alpha,\beta)=f(\omega )+\sum_{i=1}^{K} \alpha _{i}g_{i}(\omega )+\sum_{i=1}^{K}\beta _{i}h_{i}(\omega ) \\ =f(\omega )+\alpha ^{T}g(\omega )+\beta^{T}h(\omega )$
其中， $\alpha=[\alpha_{1},\alpha_{2},...,\alpha_{K}]^{T}$ 、 $\beta=[\beta_{1},\beta_{2},...,\beta_{M}]^{T}$ 、 $g(\omega)=[g_{1}(\omega),g_{2}(\omega),...,g_{k}(\omega)]^{T}$ 、 $h(\omega)=[h_{1}(\omega),h_{2}(\omega),...,h_{M}(\omega)]^{T}$

对偶问题定义

最大化： $\theta(\alpha ,\beta)=inf L(\omega,\alpha,\beta)$ ，所有定义域内的 $\omega$
限制条件： $\alpha_{i}\ge0,i=1\sim N$
其中， $i n f$ 意思是求最小值。函数 $\theta(\alpha ,\beta)$ 是在确定了 $\alpha$ 与 $\beta$ 的值后，遍历所有定义域内的 $\omega$ ，来找到函数 $L(\omega,\alpha,\beta)$ 的最小值。

综合原问题和对偶问题的定义可以得到：
定理一：如果 $\omega^{*}$ 是原问题的解， $(\alpha^{*},\beta^{*})$ 是对偶问题的解，则有：
$f(\omega^{*})\ge\theta(\alpha^{*},\beta^{*})$

证明过程如下：
$\theta(\alpha^{*},\beta^{*})=inf L(\omega,\alpha,\beta) \\ \le L(\omega^{*},\alpha^{*},\beta^{*}) \\ =f(\omega ^{*})+\alpha ^{*^{T}}g(\omega )+\beta^{*^{T}}h(\omega ) \\ \le f(\omega^{*})$
其中，由于 $\omega^{*}$ 是原问题的解（详细的看原问题的限制条件那里），因此 $g(\omega^{*})\le0$ ， $h(\omega^{*})=0$ 。

对偶差距（Duality Gap）

原问题与对偶问题之间的差值即为对偶差距：
$f(\omega^{*})-\theta(\alpha^{*},\beta^{*})\ge 0$

强对偶定理（Strong Duality Theorem）

如果 $g(\omega)=A\omega+b$ ， $h(\omega)=C\omega+d$ ， $f(\omega)$ 为凸函数，则有 $f(\omega^{*})=\theta(\alpha^{*},\beta^{*})$ ，则对偶差距为0。

综合以上几个理论，我们最后引入优化理论：

优化理论

定义： $G=f(\omega^{*})-\theta(\alpha^{*},\beta^{*})\ge 0$
G称为原问题与对偶问题的间距（Duality Gap）。对于某些特定的优化问题，可以证明对偶间距 $G = 0$ 。

⑦引入优化理论后，我们就可以将支持向量机的原问题（③）转换为对偶问题。很明显，优化目标与原问题是对应的。我们将优化目标中的一些条件进行修改：
首先，将优化目标中的 $\delta_{i}\ge0$ 取相反数转换成 $\delta_{i}\le0$ ，那么优化目标就变成：
最小化： $\frac{1}{2} ||\omega ||^{2}-C {\textstyle \sum_{i=1}^{N}\delta _{i}}$
限制条件：（1） $\delta_{i}\le0$ ，
（2） $y_{i}[\omega^{T}φ(x_{i})+b]\ge1+\delta_{i}$
我们将限制条件（2）也转换为 $\le$ 的形式，即： $1+\delta_{i}-y_{i}\omega^{T}φ(x_{i})-y_{i}b\le0$ 。

整体原问题完整表达为：
最小化： $\frac{1}{2} ||\omega ||^{2}-C {\textstyle \sum_{i=1}^{N}\delta _{i}}$
限制条件：（1） $\delta_{i}\le0$ ，
（2） $1+\delta_{i}-y_{i}\omega^{T}φ(x_{i})-y_{i}b\le0$

到此为止，已经将优化目标通过优化理论转换为原问题了。此时，我们通过继续将原问题转换为对偶问题：
最大化： $\theta(\alpha ,\beta)=inf [\frac{1}{2} ||\omega ||^{2}-C {\textstyle \sum_{i=1}^{N}\delta _{i}}+\sum_{i=1}^{N}\beta _{i} \delta _{i}+\sum_{i=1}^{N}\alpha _{i}[1+\delta_{i}-y_{i}\omega^{T}φ(x_{i})-y_{i}b] ]$ ，所有定义域内的 $(\omega,\delta_{i},b)$ 。
限制条件：（1） $\alpha_{i}\ge0$
（2） $\beta_{i}\ge0$
其实转换的关键就是找准函数，对着公式套就行了。

⑧我们得到了优化目标的对偶问题，目标转换为了最大化函数 $\theta(\alpha ,\beta)$ ，找到参数 $\omega,\delta_{i},b$ 。我们可以通过对 $\theta(\alpha ,\beta)$ 求导得到极值所在的参数。即：
$\frac{dL}{d\omega}=\omega-\sum_{i=1}^{N}\alpha _{i}y_{i} φ(x_{i})=0\tag{6}$
$\frac{dL}{d\delta}=-C+\sum_{i=1}^{N}\beta _{i} +\sum_{i=1}^{N}\alpha _{i} =0\tag{7}$
$\frac{dL}{db}=-\sum_{i=1}^{N}\alpha _{i}y_{i} =0\tag{8}$
当 $\omega$ 、 $\alpha_{i}$ 、 $\beta_{i}$ 都满足以上条件时，就可以满足目标。

将以上三个式子带入 $\theta(\alpha ,\beta)$ 中，我们可以得到：
$\theta(\alpha ,\beta)=\frac{1}{2}||\omega||^{2}+\sum_{i=1}^{N}\alpha _{i}-\sum_{i=1}^{N} a_{i}y_{i}\omega^{T}φ(x_{i})\tag{9}$
其中，我们先计算 $\frac{1}{2}||\omega||^{2}$ 。通过（6）式我们可以计算出：
$\frac{1}{2}||\omega||^{2}=\frac{1}{2}\omega^{T}\omega\\=\frac{1}{2}(\sum_{i=1}^{N}\alpha_{i}y_{i}φ(x_{i}))^{T}(\sum_{i=1}^{N}\alpha_{i}y_{i}φ(x_{i}))\\ =\frac{1}{2}\sum_{i=1}^{N}\sum_{i=1}^{N}\alpha _{i}\alpha _{j}y_{i}y_{j} φ(x_{i})^{T}φ(x_{j})$

我们注意到，该结果末尾的 $φ(x_{i})^{T}φ(x_{j})=K(X_{1},X_{2})$ ，即核函数。通过对偶问题的处理我们将 $φ(x_{i})$ 消掉了。

然后，我们同样通过（6）式来计算 $\sum_{i=1}^{N} a_{i}y_{i}\omega^{T}φ(x_{i})$ ：
$\sum_{i=1}^{N} \alpha_{i}y_{i}\omega^{T}φ(x_{i})=\sum_{i=1}^{N} \alpha_{i}y_{i}(\sum_{j=1}^{N}\alpha _{j}y_{j} φ(x_{j}))^{T}φ(x_{i})\\=\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j} φ(x_{j})^{T} φ(x_{i})$

我们又发现，结果末尾依然出现了 $φ(x_{i})^{T}φ(x_{j})=K(X_{1},X_{2})$ 。最后，（9）式就变成了：
$\theta(\alpha ,\beta)=\sum_{i=1}^{N}\alpha_{i}-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j} φ(x_{j})^{T} φ(x_{i})\\=\sum_{i=1}^{N}\alpha_{i}-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j} K(X_{i},X_{j})\tag{10}$

2、训练与测试

①训练流程
输入 $[(x_{i},y_{i})]_{i=1\sim N}$ ，解优化问题：

最大化： $\theta(\alpha ,\beta)=\sum_{i=1}^{N}\alpha_{i}-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j} φ(x_{j})^{T} φ(x_{i})\\=\sum_{i=1}^{N}\alpha_{i}-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j} K(X_{i},X_{j})$
限制条件：（1） $0\le\alpha_{i}\le C$
（2） $\sum_{i=1}^{N}\alpha_{i}y_{i}=0$

计算 $b$ 的值：
$b=\frac{1-y_{i}\sum_{j=1}^{N}\alpha_{j}y_{j}K(X_{i},X_{j})}{y_{i}}$
关于 $b$ 值的计算推导，需要用到KKT条件，这个部分后面再补充。

②测试流程
输入测试样本 $X$ ，若 $\sum_{i=1}^{N}\alpha_{i}y_{i}K(X_{i},X_{j})+b\ge0$ ，则 $y = + 1$ ；若 $\sum_{i=1}^{N}\alpha_{i}y_{i}K(X_{i},X_{j})+b\le0$ ，则 $y = - 1$ 。

3、常用核函数

Linear（线性内核）： $K(x,y)=x^{T}y$
Ploy（多项式核）： $K(x,y)=(x^{T}y+1)^{d}$
Rbf（高斯径向基函数核）： $K(x,y)=e^{-\frac{||x-y||^{2}}{2\sigma^{2} }}$
Tanh核： $K(x,y)=tanh(\beta x^{T}y+b)$
其中， $tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$

陈序袁

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】SVM

支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。...............
复制链接

扫一扫

专栏目录