SVM原理探究及其详细公式推导

最新推荐文章于 2023-11-07 16:08:18 发布

wx_blue_pig

最新推荐文章于 2023-11-07 16:08:18 发布

阅读量1k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/wx_blue_pig/article/details/79919652

版权

本文深入探讨支持向量机（SVM）的原理，从最优线性分类器出发，讲解函数间隔与几何间隔的概念，并通过几何间隔的推导揭示权重向量作为超平面法向量的原因。接着，形式化SVM的优化目标，利用拉格朗日乘子法解决约束优化问题，最后讨论SVM中支持向量的关键作用以及如何处理非线性问题。

摘要由CSDN通过智能技术生成

1、最优线性分类器

对于下图的二分类任务，我们想要得到一个分类平面将其分开：
这里写图片描述
显然图中的1、2、3、4、5号平面均能达成这个目的，这五个平面我们可以用下式来表示

w T x + b = 0 (1)

$\boldsymbol w^T\boldsymbol x+b=0\tag 1$

对于任意的样本点 $(x_i, y_i)$ 均满足

{w T x i + b < 0, y i = - 1 w T x i + b > 0, y i = + 1 (2)

$\begin{equation} \begin{cases} \boldsymbol w^T\boldsymbol x_i+b<0, y_i=-1\\ \boldsymbol w^T\boldsymbol x_i+b>0, y_i=+1 \end{cases} \end{equation} \tag 2$
记模型为：

f (x) = w T x + b (3)

$f(\boldsymbol x)=\boldsymbol w^T\boldsymbol x+b \tag 3$
则当新的样本特征

x′ x ′ $\boldsymbol x'$ 到来时只需代入式(3)，观察输出

f(x′) f ( x ′ ) $f(\boldsymbol x')$ 的正负即可判断。

五个平面的差别就在于 $\boldsymbol w$ 和 $b$ 不同。图中1、2、4、5号平面虽然完成了分类任务，但是其抗扰动性不佳，在这些平面附近的样本点容易被错分类，相对来说3号平面因为距离两类样本点都足够“远”，因此其抗扰动性比较好，这样的平面我们称为最优线性分类器，支持向量机(SVM)就是要寻找这样的平面，为此要引入间隔的概念。

2、函数间隔和几何间隔

2.1 函数间隔

对于每一个样本点，我们可以定义这个样本点到超平面间隔，称为样本点的函数间隔：

\begin{matrix} (4) & γ_{i 函} = y_{i} * f (x_{i}) \end{matrix}

$\gamma_{i函}=y_i\ast f(x_i) \tag 4$
那么 超平面的函数间隔可以从下式得到：

γ 函 = min 1 \leq i \leq n γ i 函 (5)

$\gamma_函=\min_{1\le i\le n} {\gamma_{i函}}\tag 5$
我们的目标就是要找到一组

w w $\boldsymbol w$ 和

b b $b$ 使得

γ_{函}

$\gamma_函$ 最大，形式化表示如下：

max w, b γ 函 = max w, b min 1 \leq i \leq n γ i 函 = max w, b min 1 \leq i \leq n y i * (w T x i + b) (6)

$\begin{align*} \max_{\boldsymbol w,b} \gamma_函 &= \max_{\boldsymbol w,b} {\min_{1\le i\le n}\gamma_{i函}}\\ &=\max_{\boldsymbol w,b} {\min_{1\le i\le n}y_i\ast (\boldsymbol {\color{red}w}^Tx_i+{\color{red}b})} \end{align*} \tag 6$
仔细分析式(6)我们可以发现，当

w w $\boldsymbol w$ 和

b b $b$ 成倍数增长时，函数间隔会不断地增大，此时找不到目标函数的最优解，而此时超平面并没有改变（

2 w^{T} x + 2 b = 0

$2\boldsymbol w^T\boldsymbol x+2b=0$ 与式(1)并没有区别），所以函数间隔还不足以帮助我们寻找最优

w w $\boldsymbol w$ 和

b b $b$ ，故需要进一步引入几何间隔

2.2 几何间隔

如下图所示：
这里写图片描述
图中 $\boldsymbol x$ 表示样本点， $\boldsymbol {x_0}$ 是 $\boldsymbol x$ 垂直投影到超平面上对应的点， $\boldsymbol w$ 是式(1)中的权重向量， 该向量是超平面的法向量（详情见 2.4* 节介绍）， $\gamma$ 表示样本点 $\boldsymbol x$ 到超平面的 几何间隔

容易得到以下推导过程：

x = x 0 + w ‖ w ‖ γ x 0 = x - w ‖ w ‖ γ ∵ x 0 在 超 平 面 上 ∴ f (x 0) = 0

$\begin{align*} &\boldsymbol x=\boldsymbol{x_0}+\frac{\boldsymbol w}{\Vert \boldsymbol w\Vert}\gamma\\ &\boldsymbol{x_0}=\boldsymbol x-\frac{\boldsymbol w}{\Vert \boldsymbol w\Vert}\gamma\\ &\because \ \boldsymbol{x_0}在超平面上\\ &\therefore f(\boldsymbol{x_0})=0 \end{align*}$ 即有

f (x - w ‖ w ‖ γ) = w T (x - w ‖ w ‖ γ) + b = w T x + b - w T w ‖ w ‖ γ = f (x) - ‖ w ‖ γ = 0 (7) (8)

$\begin{align*} f(\boldsymbol x-\frac{\boldsymbol w}{\Vert \boldsymbol w\Vert}\gamma) &=\boldsymbol w^T(\boldsymbol x-\frac{\boldsymbol w}{\Vert \boldsymbol w\Vert}\gamma)+b\\ &=\boldsymbol w^T\boldsymbol x+b-\frac{\boldsymbol {w^Tw}}{\Vert \boldsymbol w\Vert}\gamma \tag 7\\ &=f(\boldsymbol x)-\Vert \boldsymbol w\Vert\gamma \tag 8\\ &=0 \end{align*}$
所以

γ = f ( x ) ‖ w ‖ (9)

$\gamma=\frac{f(\boldsymbol x)}{\Vert \boldsymbol w\Vert} \tag 9$
其中式(7)到式(8)这一步到转化，前一半无需赘述是很直观的，后一半主要依据向量内积与二范数的关系：

‖ w ‖ = w 21 + w 22 + w 23 + \dots + w 2 n ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt = < w, w > ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt = w T w ‾ ‾ ‾ ‾ ‾ \sqrt (10)

$\begin{align*} \Vert \boldsymbol w\Vert &=\sqrt{w_1^2+w_2^2+w_3^2+\cdots+w_n^2}\tag{10}\\ &=\sqrt{<\boldsymbol {w, w}>}\\ &=\sqrt{\boldsymbol w^T\boldsymbol w} \end{align*}$

样本点

最低0.47元/天解锁文章

wx_blue_pig

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
SVM原理探究及其详细公式推导

1、最优线性分类器对于下图的二分类任务，我们想要得到一个分类平面将其分开：显然图中的1、2、3、4、5号平面均能达成这个目的，这五个平面我们可以用下式来表示wTx+b=0(1)(1)wTx+b=0\boldsymbol w^T\boldsymbol x+b=0\tag 1对于任意的样本点 (xi,yi)(xi,yi)(x_i, y_i) 均满足 {wTxi+b&lt;...
复制链接

扫一扫

专栏目录