支持向量机(SVM)基本原理

最新推荐文章于 2024-07-28 14:43:36 发布

Cpp编程小茶馆

最新推荐文章于 2024-07-28 14:43:36 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签： SVM 支持向量机

本文链接：https://blog.csdn.net/xu_fu_yong/article/details/94163524

版权

机器学习专栏收录该内容

12 篇文章 7 订阅

订阅专栏

SVM

看了很多关于SVM的博客，但是常常只能保存书签之后看，有时候有的博客就突然没了，这里就作为搬运工总结一下之后自己看吧。主要内容来自于：
支持向量机通俗导论（理解SVM的三层境界）

分类标准的起源：Logistic回归

线性回归
给定数据集 $D=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{m}, y_{m}\right)\right\}$ , 其中, $x_{i}=\left\{x_{i 1} ; x_{i 2} ; \ldots ; x_{i d}\right\}, y_{i} \in \mathbb{R}$ ,线性回归试图学习到一个线性模型,尽可能地输出正确标记.

如果我们要用线性回归算法来解决一个分类问题,(对于分类,y 取值为 0 或者 1),但如果你使用的是线性回归,那么假设函数的输出值可能远大于 1,或者远小于 0,就算所有训练样本的标签 y 都是 0 或 1但是如果算法得到的值远大于 1 或者远小于 0 的话,就会感觉很奇怪。所以我们在接下来的要研究的算法就叫做逻辑回归算法,这个算法的性质是:它的输出值永远在 0 到 1 之间。

所以逻辑回归就是一个分类算法,这个算法的输出值永远在 0 到 1 之间.
我们先看二分类的LR,具体做法是:利用sigmoid 函数,将每一个点的回归值映射到0,1之间.sigmoid函数特性如下:
在这里插入图片描述

如图所示,令 $\cdot x+b$ , 当 z > 0 , z 越大, sigmoid 返回值越接近1(但永远不会超过1). 反之,当z < 0时,z 越小, sigmoid 返回值越接近0(但永远不会小于0).
在这里插入图片描述
这意味着,当你有一个二分类任务(正例对应的标签为1,反例对应的标签为0) 于是对样本空间中的每一个样本作线性回归 $\cdot x+b$ ,然后将之用sigmoid 函数映射 $g=\operatorname{sig} \operatorname{moid}(z)$ ,最后输出每一个样本对应的类标签(都是0-1 之间的值, 大于0.5的则标记为正例),到此为止,二分类就完成了. 最后的输出,其实可以看作是样本点在经过模型计算后,属于正例的概率.
于是我们可以这样定义二分类LR的一般模型:
$\begin{array}{l}{p(Y=1 | x)=\frac{1}{1+e^{-(w \cdot x+b)}}=\frac{e^{w \cdot x+b}}{1+e^{w \cdot x+b}}} \\ {p(Y=0 | x)=1-p(Y=1 | x)=\frac{1}{1+e^{w \cdot x+b}}}\end{array}$

支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

线性分类器
给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。如果用x表示数据点，用y表示类别（y可以取1或者-1，分别代表两个不同的类），一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面（hyper plane），这个超平面的方程可以表示为（ wT中的T代表转置）：
$w^{T} x+b=0$

logistic回归目的是从特征学习出一个0/1分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。因此，使用logistic函数（或称作sigmoid函数）将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率。
假设函数:
$h_{\theta}(x)=g\left(\theta^{T} x\right)=\frac{1}{1+e^{-\theta^{T} x}}$
其中x是n维特征向量，函数g就是logistic函数。
$g(z)=\frac{1}{1+e^{-z}}$
图像为：
在这里插入图片描述

函数间隔Functional margin与几何间隔Geometrical margin

在超平面wx+b=0确定的情况下，|wx+b|能够表示点x到距离超平面的远近，而通过观察wx+b的符号与类标记y的符号是否一致可判断分类是否正确，所以，可以用(y(w*x+b))的正负性来判定或表示分类的正确性。于此，我们便引出了函数间隔（functional margin）的概念。
定义函数间隔 $\hat{\gamma}$ （用表示）为
$\hat{\gamma}=y\left(w^{T} x+b\right)=y f(x)$

而超平面(w，b)关于T中所有样本点(xi，yi)的函数间隔最小值（其中，x是特征，y是结果标签，i表示第i个样本），便为超平面(w, b)关于训练数据集T的函数间隔：
$\hat{\gamma}=\min \hat{\gamma} \mathbf{i} (i=1, \dots n)$
但这样定义的函数间隔有问题，即如果成比例的改变w和b（如将它们改成2w和2b），则函数间隔的值f(x)却变成了原来的2倍（虽然此时超平面没有改变），所以只有函数间隔还远远不够。

事实上，我们可以对法向量w加些约束条件，从而引出真正定义点到超平面的距离–几何间隔（geometrical margin）的概念。

假定对于一个点 x ，令其垂直投影到超平面上的对应点为 x0 ，w 是垂直于超平面的一个向量， $\gamma$ 为样本x到超平面的距离，如下图所示：
在这里插入图片描述

根据平面几何知识，有
$x=x_{0}+\gamma \frac{w}{\|w\|}$
其中||w||为w的二阶范数（范数是一个类似于模的表示长度的概念）， $\frac{w}{\|w\|}$ 是单位向量（一个向量除以它的模称之为单位向量）。

又由于x0 是超平面上的点，满足 f(x0)=0，代入超平面的方程 $w^{T} x+b=0$ ,可得 $w^{T} x_0+b=0$ ，即 $w^{T} x_{0}=-b$

随即让此式 $x=x_{0}+\gamma \frac{w}{\|w\|}$ 的两边同时乘以 $w^{T}$ ，再根据 $w^{T} x_{0}=-b$ 和 $w^{T} w=\|w\|^{2}$ ，即可算出 $\gamma$ ：
$\gamma=\frac{w^{T} x+b}{\|w\|}=\frac{f(x)}{\|w\|}$
为了得到 $\gamma$ 的绝对值，令 $\gamma$ 乘上对应的类别 y，即可得出几何间隔（用 $\hat{\gamma}$ 表示）的定义：
$\tilde{\gamma}=y \gamma=\frac{\hat{\gamma}}{\|w\|}$
从上述函数间隔和几何间隔的定义可以看出：几何间隔就是函数间隔除以||w||，而且函数间隔y*(wx+b) = y*f(x)实际上就是|f(x)|，只是人为定义的一个间隔度量，而几何间隔|f(x)|/||w||才是直观上的点到超平面的距离。

最大间隔分类器Maximum Margin Classifier的定义

对一个数据点进行分类，当超平面离数据点的“间隔”越大，分类的确信度（confidence）也越大。所以，为了使得分类的确信度尽量高，需要让所选择的超平面能够最大化这个“间隔”值。这个间隔就是下图中的Gap的一半。
在这里插入图片描述

通过由前面的分析可知：函数间隔不适合用来最大化间隔值，因为在超平面固定以后，可以等比例地缩放w的长度和b的值，这样可以使得 $f(x)=w^{T} x+b$ 的值任意大，亦即函数间隔 $\hat{\gamma}$ 可以在超平面保持不变的情况下被取得任意大。但几何间隔因为除上了 $\|w\|$ ，使得在缩放w和b的时候几何间隔的值 $\hat{\gamma}$ 是不会改变的，它只随着超平面的变动而变动，因此，这是更加合适的一个间隔。换言之，这里要找的最大间隔分类超平面中的“间隔”指的是几何间隔。

于是最大间隔分类器（maximum margin classifier）的目标函数可以定义为
$\max \tilde{\gamma}$
同时需满足一些条件，根据间隔的定义，有
$y_{i}\left(w^{T} x_{i}+b\right)=\hat{\gamma}_{i} \geq \hat{\gamma}, \quad i=1, \ldots, n$
回顾下几何间隔的定义 $\tilde{\gamma}=y \gamma=\frac{\hat{\gamma}}{\|w\|}$ ，可知：如果令函数间隔 $\hat{\gamma}$ 等于1（之所以令等于1，是为了方便推导和优化，且这样做对目标函数的优化没有影响），则有 $\hat{\gamma}$ = 1 / ||w||且 $y_{i}\left(w^{T} x_{i}+b\right) \geq 1, i=1, \dots, n$ ，从而上述目标函数转化成了：
$\max \frac{1}{\|w\|}, \quad s . t ., y_{i}\left(w^{T} x_{i}+b\right) \geq 1, i=1, \ldots, n$
相当于在相应的约束条件 $y_{i}\left(w^{T} x_{i}+b\right) \geq 1, i=1, \ldots, n$ 下，最大化这个1/||w||值，而1/||w||便是几何间隔。

从线性可分到线性不可分

从原始问题到对偶问题的求解
接着考虑之前得到的目标函数：
$\max \frac{1}{\|w\|} \quad s . t ., y_{i}\left(w^{T} x_{i}+b\right) \geq 1, i=1, \dots, n$
由于求 $\frac{1}{\|w\|}$ 的最大值相当于求 $\frac{1}{2}\|w\|^{2}$ 的最小值，所以上述目标函数等价于（w由分母变成分子，从而也有原来的max问题变为min问题，很明显，两者问题等价）：
$\min \frac{1}{2}\|w\|^{2} \quad \text { s.t. } y_{i}\left(w^{T} x_{i}+b\right) \geq 1, i=1, \ldots, n$
因为现在的目标函数是二次的，约束条件是线性的，所以它是一个凸二次规划问题。这个问题可以用现成的QP (Quadratic Programming) 优化包进行求解。一言以蔽之：在一定的约束条件下，目标最优，损失最小。
凸优化
我们可以看到，上面的基本型目标函数是二次的，约束条件是线性的，这是一个凸二次规划问题。可以直接用现成的优化计算包求解。但若利用“对偶问题”来求解，会更高效。

啥是凸？什么是凸优化？
凸优化说的是这么一回事情， $\subset R^{n}$ 为一凸集， $\rightarrow R$ 为一凸函数，凸优化就是要找出一点 $x^{*} \in X$ , x^{*} ,使得任意 $\in X$ ,都满足 $f\left(x^{*}\right) \leq f(x)$ .可以想象成给我一个凸函数，我要去找到最低点。当然凸优化是一个很大很厉害的领域，在这里，我们只需要知晓这个问题是这么一回事。然后，这回事要怎么样求解，就好，有兴趣的朋友可以参考凸优化的概念或者Stephen Boyd & Lieven Vandenberghe 的《Convex Optimization》.
为啥叫二次规划问题呢？

据了解，

目标函数和约束条件都为变量的线性函数，叫做-----线性规划问题。
目标函数为变量的二次函数和约束条件为变量的线性函数，叫做-----二次规划问题。
目标函数和约束条件都为非线性函数，叫做-----非线性规划问题。

由于这个问题的特殊结构，还可以通过拉格朗日对偶性（Lagrange Duality）变换到对偶变量 (dual variable) 的优化问题，即通过求解与原问题等价的对偶问题（dual problem）得到原始问题的最优解，这就是线性可分条件下支持向量机的对偶算法，这样做的优点在于：一者对偶问题往往更容易求解；二者可以自然的引入核函数，进而推广到非线性分类问题。

那什么是拉格朗日对偶性呢？简单来讲，通过给每一个约束条件加上一个拉格朗日乘子 $\alpha$ ,（Lagrange multiplier），定义拉格朗日函数（通过拉格朗日函数将约束条件融合到目标函数里去，从而只用一个函数表达式便能清楚的表达出我们的问题）
$\mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left(y_{i}\left(w^{T} x_{i}+b\right)-1\right)$

然后令：
$\theta(w)=\max _{\alpha_{i} \geq 0} \mathcal{L}(w, b, \alpha)$
容易验证，当某个约束条件不满足时，例如 $y_{i}\left(w^{T} x_{i}+b\right)<1$ ，那么显然有 $\theta(w)=\infty$ （只要令 $\alpha_{i}=\infty$ 即可）。而当所有约束条件都满足时，则最优值为 $\theta(w)=\frac{1}{2}\|w\|^{2}$ ，亦即最初要最小化的量。

因此，在要求约束条件得到满足的情况下最小化 $\frac{1}{2}\|w\|^{2}$ ，实际上等价于直接最小化 $\theta(w)$ （当然，这里也有约束条件，就是 $\alpha_{i}$ ≥0,i=1,…,n），因为如果约束条件没有得到满足， $\theta(w)$ 会等于无穷大，自然不会是我们所要求的最小值。

具体写出来，目标函数变成了：

$\min _{w, b} \theta(w)=\min _{w, b} \max _{\alpha_{i} \geq 0} \mathcal{L}(w, b, \alpha)=p^{*}$

这里用 $p^{*}$ 表示这个问题的最优值，且和最初的问题是等价的。如果直接求解，那么一上来便得面对w和b两个参数，而 $\alpha_{i}$ 又是不等式约束，这个求解过程不好做。不妨把最小和最大的位置交换一下，变成：
$\max _{\alpha_{i} \geq 0} \min _{w, b} \mathcal{L}(w, b, \alpha)=d^{*}$

交换以后的新问题是原始问题的对偶问题，这个新问题的最优值用 $d^{*}$ 来表示。而且有 $d^{*}$ ≤ $p^{*}$ ，在满足某些条件的情况下，这两者相等，这个时候就可以通过求解对偶问题来间接地求解原始问题。

换言之，之所以从minmax $p^{*}$ 的原始问题，转化为maxmin $d^{*}$ 的对偶问题，一者因为 $d^{*}$ 是 $p^{*}$ 的近似解，二者，转化为对偶问题后，更容易求解。

下面可以先求L 对w、b的极小，再求L对 $\alpha$ 的极大。

KKT条件
$d^{*}$ ≤ $p^{*}$ 在满足某些条件的情况下，两者等价，这所谓的“满足某些条件”就是要满足KKT条件。

要让两者等价需满足strong duality （强对偶），而后有学者在强对偶下提出了KKT条件，且KKT条件的成立要满足constraint qualifications，而constraint qualifications之一就是Slater条件。所谓Slater 条件，即指：凸优化问题，如果存在一个点x，使得所有等式约束都成立，并且所有不等式约束都严格成立（即取严格不等号，而非等号），则满足Slater 条件。对于此处，Slater 条件成立，所以 $d^{*}$ ≤ $p^{*}$ 可以取等号。

一般地，一个最优化数学模型能够表示成下列标准形式：
$\begin{array}{l}{\min . f(\mathbf{x})} \\ {\text { s.t. } \quad h_{j}(\mathbf{x})=0, j=1, \ldots, p} \\ {\qquad g_{k}(\mathbf{x}) \leq 0, k=1, \ldots, q} \\ {\mathbf{x} \in \mathbf{X} \subset \mathfrak{R}^{n}}\end{array}$
其中，f(x)是需要最小化的函数，h(x)是等式约束，g(x)是不等式约束，p和q分别为等式约束和不等式约束的数量。
KKT条件的意义：它是一个非线性规划（Nonlinear Programming）问题能有最优化解法的必要和充分条件。

而KKT条件就是指上面最优化数学模型的标准形式中的最小点 x* 必须满足下面的条件：

$h_{j}\left(\mathbf{x}_{*}\right)=0, j=1, \ldots, p, g_{k}\left(\mathbf{x}_{*}\right) \leq 0, k=1, \ldots, q$
$\nabla f\left(x^{*}\right)+\sum_{i=1}^{p} \lambda_{i} \nabla h_{i}\left(x^{*}\right)+\sum_{j=1}^{q} \mu_{k} \nabla g_{k}\left(x^{*}\right)=0$
$\lambda_{i} \neq 0, \mu_{k} \geq 0, \mu_{k} g_{k}\left(x^{*}\right)=0$

我们这里的问题是满足 KKT 条件的（首先已经满足Slater条件，再者f和gi也都是可微的，即L对w和b都可导），因此现在我们便转化为求解第二个问题。

也就是说，原始问题通过满足KKT条件，已经转化成了对偶问题。而求解这个对偶学习问题，分为3个步骤：首先要让L(w，b，a) 关于 w 和 b 最小化，然后求对 $\alpha$ 的极大，最后利用SMO算法求解对偶问题中的拉格朗日乘子。

对偶问题求解的3个步骤

首先固定 $\alpha$ ，要让 L 关于 w 和 b 最小化，我们分别对w，b求偏导数，即令 ∂L/∂w 和 ∂L/∂b 等于零
$\begin{aligned} \frac{\partial \mathcal{L}}{\partial w} &=0 \Rightarrow w=\sum_{i=1}^{n} \alpha_{i} y_{i} x_{i} \\ \frac{\partial \mathcal{L}}{\partial b} &=0 \Rightarrow \sum_{i=1}^{n} \alpha_{i} y_{i}=0 \end{aligned}$

将以上结果代入之前的L：
$\mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left(y_{i}\left(w^{T} x_{i}+b\right)-1\right)$

得到：
$\begin{aligned} \mathcal{L}(w, b, \alpha) &=\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}-\sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}-b \sum_{i=1}^{n} \alpha_{i} y_{i}+\sum_{i=1}^{n} \alpha_{i} \\ &=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j} \end{aligned}$

具体推导过程是比较复杂的，如下所示：
在这里插入图片描述
最后，得到：

$\begin{aligned} \mathcal{L}(w, b, \alpha) &=\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}-\sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}-b \sum_{i=1}^{n} \alpha_{i} y_{i}+\sum_{i=1}^{n} \alpha_{i} \\ &=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j} \end{aligned}$

“倒数第4步”推导到“倒数第3步”使用了线性代数的转置运算，由于ai和yi都是实数，因此转置后与自身一样。“倒数第3步”推导到“倒数第2步”使用了(a+b+c+…)(a+b+c+…)=aa+ab+ac+ba+bb+bc+…的乘法运算法则。最后一步是上一步的顺序调整。

从上面的最后一个式子，我们可以看出，此时的拉格朗日函数只包含了一个变量，那就是 $\alpha_{i}$ （求出了 $\alpha_{i}$ 便能求出w，和b，由此可见，则核心问题：分类函数 $f(x)=w^{T} x+b$ 也就可以轻而易举的求出来了）。

求对 $\alpha$ 的极大，即是关于对偶问题的最优化问题。经过上面第一个步骤的求w和b，得到的拉格朗日函数式子已经没有了变量w，b，只有 $\alpha$ 。从上面的式子得到：
$\begin{array}{l}{\max _{\alpha \geq 0} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}} \\ {\text {s.t.} \sum_{i=1}^{m} \alpha_{i} y_{i} .=0} \\ {\alpha_{i} \geq 0, i=1,2, \ldots, m}\end{array}$
这样，求出了 $\alpha_{i}$ ，根据 $w=\sum_{i=1}^{m} \alpha_{i} y^{(i)} x^{(i)}$ ，即可求出w，然后通过 $b^{*}=-\frac{\max _{i : y^{(i)}=-1} w^{* T} x^{(i)}+\min _{i : y^{(i)}=1} w^{* T} x^{(i)}}{2}$ ，即可求出b，最终得出分离超平面和分类决策函数。
在求得L(w, b, a) 关于 w 和 b 最小化，以及对 $\alpha$ 的极大之后，最后一步则可以利用SMO算法求解对偶问题中的拉格朗日乘子 $\alpha$
$\begin{array}{l}{\max _{\alpha \geq 0} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}} \\ {\text {s.t.} \sum_{i=1}^{m} \alpha_{i} y_{i} .=0} \\ {\alpha_{i} \geq 0, i=1,2, \ldots, m}\end{array}$

上述式子要解决的是在参数上 $\left\{\alpha_{1}, \alpha_{2}, \ldots, \alpha_{n}\right\}$ 求最大值W的问题，至于 $x^{(i)}$ 和 $y^{(i)}$ 都是已知数。要了解这个SMO算法是如何推导的，请跳到下文第3.5节、SMO算法。

总结
让我们再来看看上述推导过程中得到的一些有趣的形式。首先就是关于我们的 hyper plane ，对于一个数据点 x 进行分类，实际上是通过把 x 带入到 $f(x)=w^{T} x+b$ 算出结果然后根据其正负号来进行类别划分的。而前面的推导中我们得到:
$w=\sum_{i=1}^{n} \alpha_{i} y_{i} x_{i}$
因此分类函数为：
$\begin{aligned} f(x) &=\left(\sum_{i=1}^{n} \alpha_{i} y_{i} x_{i}\right)^{T} x+b \\ &=\sum_{i=1}^{n} \alpha_{i} y_{i}\left\langle x_{i}, x\right\rangle+ b \end{aligned}$

这里的形式的有趣之处在于，对于新点 x的预测，只需要计算它与训练数据点的内积即可（表示向量内积），这一点至关重要，是之后使用 Kernel 进行非线性推广的基本前提。此外，所谓 Supporting Vector 也在这里显示出来——事实上，所有非Supporting Vector 所对应的系数 $\alpha$ 都是等于零的，因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是所有的训练数据即可。

为什么非支持向量对应的 $\alpha$ 等于零呢？直观上来理解的话，就是这些“后方”的点——正如我们之前分析过的一样，对超平面是没有影响的，由于分类完全有超平面决定，所以这些无关的点并不会参与分类问题的计算，因而也就不会产生任何影响了。

回忆一下我们通过 Lagrange multiplier得到的目标函数：
在这里插入图片描述

注意到如果 xi 是支持向量的话，上式中红颜色的部分是等于 0 的（因为支持向量的 functional margin 等于 1 ），而对于非支持向量来说，functional margin 会大于 1 ，因此红颜色部分是大于零的，而 $\alpha_{i}$ 又是非负的，为了满足最大化， $\alpha_{i}$ 必须等于 0 。这也就是这些非Supporting Vector 的点的局限性。

至此，我们便得到了一个maximum margin hyper plane classifier，这就是所谓的支持向量机（Support Vector Machine）。当然，到目前为止，我们的 SVM 还比较弱，只能处理线性的情况，不过，在得到了对偶dual 形式之后，通过 Kernel 推广到非线性的情况就变成了一件非常容易的事情了(通过求解对偶问题得到最优解，这就是线性可分条件下支持向量机的对偶算法，这样做的优点在于：一者对偶问题往往更容易求解；二者可以自然的引入核函数，进而推广到非线性分类问题”)。

核函数Kernel

1. 特征空间的隐式映射：核函数

事实上，大部分时候数据并不是线性可分的，这个时候满足这样条件的超平面就根本不存在。在上文中，我们已经了解到了SVM处理线性可分的情况，那对于非线性的数据SVM咋处理呢？对于非线性的情况，SVM 的处理方法是选择一个核函数 κ(⋅,⋅) ，通过将数据映射到高维空间，来解决在原始空间中线性不可分的问题。

具体来说，在线性不可分的情况下，支持向量机首先在低维空间中完成计算，然后通过核函数将输入空间映射到高维特征空间，最终在高维特征空间中构造出最优分离超平面，从而把平面上本身不好分的非线性数据分开。如图所示，一堆数据在二维空间无法划分，从而映射到三维空间里划分：
在这里插入图片描述

而在我们遇到核函数之前，如果用原始的方法，那么在用线性学习器学习一个非线性关系，需要选择一个非线性特征集，并且将数据写成新的表达形式，这等价于应用一个固定的非线性映射，将数据映射到特征空间，在特征空间中使用线性学习器，因此，考虑的假设集是这种类型的函数：
$f(\mathbf{x})=\sum_{i=1}^{N} w_{i} \phi_{i}(\mathbf{x})+b$
这里ϕ：X->F是从输入空间到某个特征空间的映射，这意味着建立非线性学习器分为两步：

首先使用一个非线性映射将数据变换到一个特征空间F，
然后在特征空间使用线性学习器分类。

而由于对偶形式就是线性学习器的一个重要性质，这意味着假设可以表达为训练点的线性组合，因此决策规则可以用测试点和训练点的内积来表示：
$f(\mathbf{x})=\sum_{i=1}^{\prime} \alpha_{i} y_{i}\left\langle\phi\left(\mathbf{x}_{i}\right) \cdot \phi(\mathbf{x})\right\rangle+ b$
如果有一种方式可以在特征空间中直接计算内积〈φ(xi · φ(x)〉，就像在原始输入点的函数中一样，就有可能将两个步骤融合到一起建立一个非线性的学习器，这样直接计算法的方法称为核函数方法：
核是一个函数K，对所有x，z，满足 $K(\mathbf{x}, \mathbf{z})=\langle\phi(\mathbf{x}) \cdot \phi(\mathbf{z})\rangle$ ，这里φ是从X到内积特征空间F的映射。

2. 核函数：如何处理非线性数据

来看个核函数的例子。如下图所示的两类数据，分别分布为两个圆圈的形状，这样的数据本身就是线性不可分的，此时咱们该如何把这两类数据分开呢(下文将会有一个相应的三维空间图)？
在这里插入图片描述

事实上，上图所述的这个数据集，是用两个半径不同的圆圈加上了少量的噪音生成得到的，所以，一个理想的分界应该是一个“圆圈”而不是一条线（超平面）。如果用 $\mathrm{X}_{1}$ 和 $\mathrm{X}_{2}$ 来表示这个二维平面的两个坐标的话，我们知道一条二次曲线（圆圈是二次曲线的一种特殊情况）的方程可以写作这样的形式：
$a_{1} X_{1}+a_{2} X_{1}^{2}+a_{3} X_{2}+a_{4} X_{2}^{2}+a_{5} X_{1} X_{2}+a_{6}=0$
注意上面的形式，如果我们构造另外一个五维的空间，其中五个坐标的值分别为 $Z_{1}=X_{1}, Z_{2}=X_{1}^{2}, Z_{3}=X_{2}, Z_{4}=X_{2}^{2}，Z_{5}=X_{1} X_{2}$ ，那么显然，上面的方程在新的坐标系下可以写作：
$\sum_{i=1}^{5} a_{i} Z_{i}+a_{6}=0$
关于新的坐标 $\mathrm{Z}$ ，这正是一个 hyper plane 的方程！也就是说，如果我们做一个映射 $\phi : R_{2} \rightarrow R_{5}$ ，将 $\mathrm{X}$ 按照上面的规则映射为 $\mathrm{Z}$ ，那么在新的空间中原来的数据将变成线性可分的，从而使用之前我们推导的线性分类算法就可以进行处理了。这正是 Kernel 方法处理非线性问题的基本思想。

再进一步描述 Kernel 的细节之前，不妨再来看看上述例子在映射过后的直观形态。当然，你我可能无法把 5 维空间画出来，不过由于我这里生成数据的时候用了特殊的情形，所以这里的超平面实际的方程是这个样子的（圆心在 $\mathrm{X}_{2}$ 轴上的一个正圆）
$\sum_{i=1}^{5} a_{i} Z_{i}+a_{6}=0$
因此我只需要把它映射到 $Z_{1}=X_{1}^{2}, Z_{2}=X_{2}^{2}, \quad Z_{3}=X_{2}$ ，这样一个三维空间中即可，下图即是映射之后的结果，将坐标轴经过适当的旋转，就可以很明显地看出，数据是可以通过一个平面来分开的

在这里插入图片描述

核函数相当于把原来的分类函数：
$f(x)=\sum_{i=1}^{n} \alpha_{i} y_{i}\left\langle x_{i}, x\right\rangle+ b$

映射成：
$f(x)=\sum_{i=1}^{n} \alpha_{i} y_{i}\left\langle\phi\left(x_{i}\right), \phi(x)\right\rangle+ b$

而其中的 $\alpha$ 可以通过求解如下 dual 问题而得到的：
$\begin{array}{l}{\max _{\alpha} \sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j}\left\langle\phi\left(x_{i}\right), \phi\left(x_{j}\right)\right\rangle} \\ {\text {s.t.}, \alpha_{i} \geq 0, i=1, \ldots, n} \\ {\sum_{i=1}^{n} \alpha_{i} y_{i}=0}\end{array}$

这样一来问题就解决了吗？似乎是的：拿到非线性数据，就找一个映射 $\phi(\cdot)$ ，然后一股脑把原来的数据映射到新空间中，再做线性 SVM 即可。不过事实上好像并没有这么简单。

细想一下，刚才的方法是不是有问题？

在最初的例子里，我们对一个二维空间做映射，选择的新空间是原始空间的所有一阶和二阶的组合，得到了五个维度；
如果原始空间是三维（一阶、二阶和三阶的组合），那么我们会得到：3(一次)+3(二次交叉)+3(平方)+3(立方)+1(x1x2x3)+23(交叉，一个一次一个二次，类似x1x2^2) = 19维的新空间，这个数目是呈指数级爆炸性增长的，从而势必这给 $\phi(\cdot)$ 的计算带来非常大的困难，而且如果遇到无穷维的情况，就根本无从计算了。
这个时候，可能就需要 Kernel 出马了。

不妨还是从最开始的简单例子出发，设两个向量 $x_{1}=\left(\eta_{1}, \eta_{2}\right)^{T}$ 和 $x_{2}=\left(\xi_{1}, \xi_{2}\right)^{T}$ ，而 $\phi(\cdot)$ 即是到前面说的五维空间的映射，因此映射过后的内积为：
$\left\langle\phi\left(x_{1}\right), \phi\left(x_{2}\right)\right\rangle=\eta_{1} \xi_{1}+\eta_{1}^{2} \xi_{1}^{2}+\eta_{2} \xi_{2}+\eta_{2}^{2} \xi_{2}^{2}+\eta_{1} \eta_{2} \xi_{1} \xi_{2}$
（公式说明：上面的这两个推导过程中，所说的前面的五维空间的映射，回顾下之前的映射规则，再看那第一个推导，其实就是计算x1，x2各自的内积，然后相乘相加即可，第二个推导则是直接平方，去掉括号，也很容易推出来）
另外，我们又注意到：
$\left(\left\langle x_{1}, x_{2}\right\rangle+ 1\right)^{2}=2 \eta_{1} \xi_{1}+\eta_{1}^{2} \xi_{1}^{2}+2 \eta_{2} \xi_{2}+\eta_{2}^{2} \xi_{2}^{2}+2 \eta_{1} \eta_{2} \xi_{1} \xi_{2}+1$

二者有很多相似的地方，实际上，我们只要把某几个维度线性缩放一下，然后再加上一个常数维度，具体来说，上面这个式子的计算结果实际上和映射
$\varphi\left(X_{1}, X_{2}\right)=\left(\sqrt{2} X_{1}, X_{1}^{2}, \sqrt{2} X_{2}, X_{2}^{2}, \sqrt{2} X_{1} X_{2}, 1\right)^{T}$
之后的内积 $\left\langle\varphi\left(x_{1}\right), \varphi\left(x_{2}\right)\right\rangle$ 的结果是相等的，那么区别在于什么地方呢？

一个是映射到高维空间中，然后再根据内积的公式进行计算；
而另一个则直接在原来的低维空间中进行计算，而不需要显式地写出映射后的结果。

我们把这里的计算两个向量在隐式映射过后的空间中的内积的函数叫做核函数 (Kernel Function) ，例如，在刚才的例子中，我们的核函数为：
$\kappa\left(x_{1}, x_{2}\right)=\left(\left\langle x_{1}, x_{2}\right\rangle+ 1\right)^{2}$

核函数能简化映射空间中的内积运算——刚好“碰巧”的是，在我们的 SVM 里需要计算的地方数据向量总是以内积的形式出现的。对比刚才我们上面写出来的式子，现在我们的分类函数为：
$\sum_{i=1}^{n} \alpha_{i} y_{i} \kappa\left(x_{i}, x\right)+b$

其中 $\alpha$ 由如下 dual 问题计算而得：
$\begin{array}{l}{\max _{\alpha} \sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} \kappa\left(x_{i}, x_{j}\right)} \\ {\text {s.t.}, \alpha_{i} \geq 0, i=1, \ldots, n} \\ {\sum_{i=1}^{n} \alpha_{i} y_{i}=0}\end{array}$
这样一来计算的问题就算解决了，避开了直接在高维空间中进行计算，而结果却是等价的！当然，因为我们这里的例子非常简单，所以我可以手工构造出对应于的 $\phi(\cdot)$ 核函数出来，如果对于任意一个映射，想要构造出对应的核函数就很困难了。

常见核函数

通常人们会从一些常用的核函数中选择（根据问题和数据的不同，选择不同的参数，实际上就是得到了不同的核函数），例如：

线性核，这实际上就是原始空间中的内积。这个核存在的主要目的是使得“映射后空间中的问题”和“映射前空间中的问题”两者在形式上统一起来了(意思是说，咱们有的时候，写代码，或写公式的时候，只要写个模板或通用表达式，然后再代入不同的核，便可以了，于此，便在形式上统一了起来，不用再分别写一个线性的，和一个非线性的)。
$\bullet z$
多项式核，显然刚才我们举的例子是这里多项式核的一个特例（R = 1，d = 2）。虽然比较麻烦，而且没有必要，不过这个核所对应的映射实际上是可以写出来的。
$z)=(\gamma x \bullet z+r)^{d}$
高斯核函数（Gaussian Kernel），在SVM中也称为径向基核函数（Radial Basis Function,RBF），它是非线性分类SVM最主流的核函数。这个核就是最开始提到过的会将原始空间映射为无穷维空间的那个家伙。不过，如果 $\sigma$ 选得很大的话，高次特征上的权重实际上衰减得非常快，所以实际上（数值上近似一下）相当于一个低维的子空间；反过来，如果 $\sigma$ 选得很小，则可以将任意的数据映射为线性可分——当然，这并不一定是好事，因为随之而来的可能是非常严重的过拟合问题。不过，总的来说，通过调控参数，高斯核实际上具有相当高的灵活性，也是使用最广泛的核函数之一。下图所示的例子便是把低维线性不可分的数据通过高斯核函数映射到了高维空间：
$z)=\exp \left(-\gamma\|x-z\|^{2}\right)$
$y)=\exp \left(-\frac{\|x-y\|^{2}}{2 \sigma^{2}}\right)$

在这里插入图片描述

Sigmoid核函数
Sigmoid核函数（Sigmoid Kernel）也是线性不可分SVM常用的核函数之一。
$z)=\tanh (\gamma x \bullet z+r)$

核函数的本质

上面说了这么一大堆，读者可能还是没明白核函数到底是个什么东西？我再简要概括下，即以下三点：

实际中，我们会经常遇到线性不可分的样例，此时，我们的常用做法是把样例特征映射到高维空间中去(映射到高维空间后，相关特征便被分开了，也就达到了分类的目的)；
但进一步，如果凡是遇到线性不可分的样例，一律映射到高维空间，那么这个维度大小是会高到可怕的(如上文中19维乃至无穷维的例子)。那咋办呢？
此时，核函数就隆重登场了，核函数的价值在于它虽然也是将特征进行从低维到高维的转换，但核函数绝就绝在它事先在低维上进行计算，而将实质上的分类效果表现在了高维上，也就如上文所说的避免了直接在高维空间中的复杂计算。

SMO算法的步骤

SMO的主要步骤，如下：
第一步选取一对 $\alpha_{i}$ 和 $\alpha_{j}$ ，选取方法使用启发式方法；
第二步，固定除 $\alpha_{i}$ 和 $\alpha_{j}$ 之外的其他参数，确定W极值条件下的 $\alpha_{i}$ ， $\alpha_{j}$ 由 $\alpha_{i}$ 表示。

假定在某一次迭代中，需要更新 $x_{1}$ ， $x_{2}$ 对应的拉格朗日乘子 $\alpha_{1}$ ， $\alpha_{2}$ ，那么这个小规模的二次规划问题写为：
在这里插入图片描述
那么在每次迭代中，如何更新乘子呢？

知道了如何更新乘子，那么选取哪些乘子进行更新呢？具体选择方法有以下两个步骤：

步骤1：先“扫描”所有乘子，把第一个违反KKT条件的作为更新对象，令为a1；
步骤2：在所有不违反KKT条件的乘子中，选择使|E1 −E2|最大的a2进行更新，使得能最大限度增大目标函数的值（类似于梯度下降. 此外 $E_{i}=u_{i}-y_{i}$ ，而 $u=\vec{w} \cdot \vec{x}-b$ ，求出来的E代表函数ui对输入xi的预测值与真实输出类标记yi之差）。
最后，每次更新完两个乘子的优化后，都需要再重新计算b，及对应的Ei值。
综上，SMO算法的基本思想是将Vapnik在1982年提出的Chunking方法推到极致，SMO算法每次迭代只选出两个分量ai和aj进行调整，其它分量则保持固定不变，在得到解ai和aj之后，再用ai和aj改进其它分量。与通常的分解算法比较，尽管它可能需要更多的迭代次数，但每次迭代的计算量比较小，所以该算法表现出较好的快速收敛性，且不需要存储核矩阵，也没有矩阵运算。

对于LR与SVM的异同总结如下:

相同点:

LR和SVM都是分类算法
LR和SVM都是监督学习算法。
LR和SVM都是判别模型。
如果不考虑核函数，LR和SVM都是线性分类算法，也就是说他们的分类决策面都是线性的。说明:LR也是可以用核函数的.但LR通常不采用核函数的方法.(计算量太大)
LR和SVM不同点:
1、LR采用log损失，SVM采用合页(hinge)损失。
逻辑回归的损失函数：
$J(\theta)=-\frac{1}{m}\left[\sum_{i=1}^{m} y^{(i)} \log h_{\theta}\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right]$
支持向量机的损失函数：
$\mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left(y_{i}\left(w^{T} x_{i}+b\right)-1\right)$
逻辑回归方法基于概率理论，假设样本为1的概率可以用sigmoid函数来表示，然后通过极大似然估计的方法估计出参数的值(基于统计的,其损失函数是人为设定的凸函数) 。支持向量机基于几何间隔最大化原理，认为存在最大几何间隔的分类面为最优分类面.(有严格的推导)
2、LR对异常值敏感，SVM对异常值不敏感(抗燥能力,SVM要强)(https://www.jianshu.com/p/1a41a1567b87)。支持向量机只考虑局部的边界线附近的点，而逻辑回归考虑全局（远离的点对边界线的确定也起作用，虽然作用会相对小一些）。LR模型找到的那个超平面，是尽量让所有点都远离他，而SVM寻找的那个超平面，是只让最靠近中间分割线的那些点尽量远离，即只用到那些支持向量的样本。
3、计算复杂度不同。对于海量数据，SVM的效率较低，LR效率比较高。对于两者在feature和样本数量不同的情况下的效率问题,可以参考:https://blog.csdn.net/a244659184/article/details/81122521。该文章说明了:

当样本较少，特征维数较低时，SVM和LR的运行时间均比较短，SVM较短一些。准确率的话，LR明显比SVM要高。当样本稍微增加些时，SVM运行时间开始增长，但是准确率赶超了LR。SVM时间虽长，但在接收范围内。当数据量增长到20000时，特征维数增长到200时，SVM的运行时间剧烈增加，远远超过了LR的运行时间。但是准确率却和LR相差无几。(这其中主要原因是大量非支持向量参与计算,造成SVM的二次规划问题)

4、对非线性问题的处理方式不同，LR主要靠特征构造，必须组合交叉特征，特征离散化。SVM也可以这样，还可以通过kernel(因为只有支持向量参与核计算,计算复杂度不高)。(由于可以利用核函数,。SVM则可以通过对偶求解高效处理。LR则在特征空间维度很高时，表现较差。)

5、SVM的损失函数就自带正则！！！（损失函数中的1/2||w||^2项），这就是为什么SVM是结构风险最小化算法的原因！！！而LR必须另外在损失函数上添加正则项！！！
$\mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left(y_{i}\left(w^{T} x_{i}+b\right)-1\right)$

svm支持向量机的原理（转）
支持向量机通俗导论（理解SVM的三层境界）
机器学习：支持向量机SVM原理与理解

支持向量机（SVM）从入门到放弃再到掌握
 SVM支持向量机原理及核函数

Cpp编程小茶馆

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
支持向量机(SVM)基本原理

SVM看了很多关于SVM的博客，但是常常只能保存书签之后看，有时候有的博客就突然没了，这里就作为搬运工总结一下之后自己看吧。主要内容来自于：支持向量机通俗导论（理解SVM的三层境界）分类标准的起源：Logistic回归线性回归给定数据集D={(x1,y1),(x2,y2),…,(xm,ym)}D=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, ...
复制链接

扫一扫