支持向量机（1）-概念及推导

最新推荐文章于 2022-12-18 22:14:45 发布

zizi7

最新推荐文章于 2022-12-18 22:14:45 发布

阅读量458

点赞数

分类专栏：机器学习文章标签：机器学习 svm

本文链接：https://blog.csdn.net/zizi7/article/details/78364404

版权

机器学习专栏收录该内容

44 篇文章 0 订阅

订阅专栏

本文深入探讨支持向量机（SVM），包括其基本概念、线性可分SVM的推导、非线性可分情况下的解决方案以及如何引入松弛变量处理异常点。SVM通过最大化边际并利用核函数解决非线性问题，是强大的分类算法之一。

摘要由CSDN通过智能技术生成

之前一篇文章《Andrew机器学习课程笔记（3）—— K均值、SVM、PCA》有分析过SVM，但感觉不够系统，也没有算法落地

本篇及下一篇从“概念及推导”和“算法实现”两个方面讨论SVM
本篇包含：SVM基本概念、线性可分SVM、非线性可分SVM、带有松弛变量的SVM

概念

支持向量机（SVM）是一种二类分类模型，其基本目标是找到一个分类平面，使得两边的特征点与之距离（margin）最大。

　　　　　　　　　　这里写图片描述
　　　　　　　　　　　　　　　图1-1. 二维空间线性SVM

图1-1中落在蓝色边界的样本称为支撑向量

对于非线性可分的情况，SVM通过引入核函数，将样本映射到高维空间实现分类。
SVM一直被认为是效果最好的现成可用的分类算法之一

线性可分SVM

目标函数推导

考虑线性分类器的超平面方程

f (x) = W T X + b = 02 (1)

$f(x)=W^TX+b=0\phantom{2}(1)$
使用sign的激活函数

y = s i g n (f (x)) = {1, - 1, W T X + b > 0 W T X + b < 0 2 (2)

$y=sign(f(x))=\begin{cases}1, &W^TX+b > 0 \\ -1, &W^TX+b < 0\end{cases}\phantom{2}(2)$
由此可以得到样本点到分类面的 函数间隔（functional margin）

γ f = y (W T X + b) = y f (x) 2 (3)

$\gamma^f=y(W^TX+b)=yf(x)\phantom{2}(3)$
乘上y可以保证间隔的非负性
同时，由点面距离可以得到 几何间隔（geometrical margin）

γ g = y γ = γ f | | W | | 2 (4)

$\gamma^g=y\gamma=\frac{\gamma^f}{||W||}\phantom{2}(4)$
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
几何间隔的推导
参考文章《支持向量机: Maximum Margin Classifier》的评论
令

x $x$ 垂直投影到超平面的点为

x0 $x_0$ ，

γ $\gamma$ 为

x $x$ 到

x0 $x_0$ 的距离标量

x = x 0 + γ w | | w | | 2 (5)

$x=x_0+\gamma\frac{w}{||w||}\phantom{2}(5)$
等式(5)两边左乘

wT $w^T$ ，得

wTx=wTx0+γwTw||w|| $w^Tx=w^Tx_0+\gamma\frac{w^Tw}{||w||}$ ，
又因为

wTx=f(x)−b $w^Tx = f(x)-b$ ，代入，得

f(x)=wTx0+b+γwTw||w||=f(x0)+γwTw||w|| $f(x)=w^Tx_0+b+\gamma\frac{w^Tw}{||w||}=f(x_0)+\gamma\frac{w^Tw}{||w||}$ ，
而

f(x0)=0 $f(x_0)=0$ ，得

f(x)=γwTw||w|| $f(x)=\gamma\frac{w^Tw}{||w||}$
于是有

γ=f(x)||w|| $\gamma=\frac{f(x)}{||w||}$ ，左乘

y $y$ 确保非负性，有

γg=yγ=yf(x)||w||=γf||w|| $\gamma^g=y\gamma=\frac{yf(x)}{||w||}=\frac{\gamma^f}{||w||}$
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

可以看到，几何间隔较函数间隔多了一个缩放因子 $||W||$ ，从而避免了 $w$ 和 $b$ 等比例缩放给测量值带来的影响

由此确定 SVM 的目标函数

m a x (γ g), 2 s . t . y i (w T x i + b) \geq γ f 2 (6)

$max(\gamma^g), \phantom{2}s.t.y_i(w^Tx_i+b)\ge\gamma^f\phantom{2}(6)$
为了计算方便，固定

γf=1 $\gamma^f=1$ ，得SVM最终 目标函数

m a x (1 | | w | |), 2 s . t ., y i (w T x i + b) \geq 12 (7)

$max(\frac{1}{||w||}),\phantom{2}s.t.,y_i(w^Tx_i+b)\ge1\phantom{2}(7)$

目标函数求解

为了方便，将SVM目标函数(7)做等价变形

m i n (1 2 | | w | | 2), 2 s . t ., y i (w T x i + b) \geq 12 (8)

$min(\frac{1}{2}||w||^2),\phantom{2}s.t.,y_i(w^Tx_i+b)\ge1\phantom{2}(8)$
根据拉格朗日乘子法，(8)式可以变为求(9)式的极值

L (w, b, a) = 1 2 | | w | | 2 - \sum i = 1 n a i (y i (w T x i + b) - 1) 2 (9)

$L(w,b,a)=\frac{1}{2}||w||^2-\sum_{i=1}^na_i(y_i(w^Tx_i+b)-1)\phantom{2}(9)$
对

w $w$ 、

b $b$ 和

ai $a_i$ 求偏导，有

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ \partial L \partial w = w - \sum n i = 1 a i y i x i \partial L \partial b = \sum n i = 1 a i y i \partial L \partial a i = y i w T x i + y i b - 1 2 (10)

$\begin{cases}\frac{\partial L}{\partial w}=w-\sum_{i=1}^n{a_iy_ix_i}\\ \frac{\partial L}{\partial b}=\sum_{i=1}^n{a_iy_i}\\\frac{\partial L}{\partial a_i}=y_iw^Tx_i+y_ib-1\end{cases}\phantom{2}(10)$
令各偏导为0，得

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ w = \sum n i = 1 a i y i x i 0 = \sum n i = 1 a i y i b = 1 y j - \sum n i = 1 a i y i (x i . x j) 2 = y j - \sum n i = 1 a i y i (x i . x j) 2 (11)

$\begin{cases}w=\sum_{i=1}^n{a_iy_ix_i}\\ 0=\sum_{i=1}^n{a_iy_i}\\b=\frac{1}{y_j}-\sum_{i=1}^na_iy_i(x_i.x_j)\\\phantom{2}=y_j-\sum_{i=1}^na_iy_i(x_i.x_j)\end{cases}\phantom{2}(11)$
这里

yi=1yi $y_i=\frac{1}{y_i}$ 是因为

yi={−1,1} $y_i=\{-1,1\}$

事实上我们将式(11)中的 $w$ 代入式(1)，会有

f (x) = (\sum i = 1 n a i y i x i) x + b 2 = \sum i = 1 n a i y i < x i, x > + b 2 (12)

$f(x)=(\sum_{i=1}^na_iy_ix_i)x+b\\\phantom{2}=\sum_{i=1}^na_iy_i<x_i,x>+b\phantom{2}(12)$
也就是说，对于新点

x $x$ 的预测，只需要计算其与训练数据点的内积即可

此外，非支持向量点对应的 $a_i$ ，其实取值为0。因为这些点对超平面没影响。

非线性可分SVM

参考文章《支持向量机: Kernel》，考虑如图2-1所示的数据分布

　　　　　　　　　　　　　　这里写图片描述
　　　　　　　　　　　　　　　图2-1. 两类数据无法用线性分类器分类

图1-2理想的分类面为 $a_1x_1+a_2x_1^2+a_3x_2+a_4x_2^2+a_5x_1x_2+a_6=0$

为了实现线性可分，可以将2维数据映射到5维：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ z 1 = x 1 z 2 = x 21 z 3 = x 2 z 4 = x 22 z 5 = x 1 x 2 2 (13)

$\begin{cases}z_1=x_1\\z_2=x_1^2\\z_3=x_2\\z_4=x_2^2\\z_5=x_1x_2\end{cases}\phantom{2}(13)$
于是有线性形式

\sum i = 1 5 a i z i + a 6 = 02 (14)

$\sum_{i=1}^5a_iz_i+a_6=0\phantom{2}(14)$

因此对于非线性可分的情况，理论上首先将数据做适当升维即可（对比式(12)）

f (x) = \sum i = 1 n a i y i < ϕ (x i), ϕ (x) > + b 2 (15)

$f(x)=\sum_{i=1}^na_iy_i<\phi(x_i),\phi(x)>+b\phantom{2}(15)$
但这样一来会遇到 “维数爆炸”的问题（高斯核会将数据升到无穷维），导致计算量急剧升高

SVM核函数的做法是：在原始维度以某种函数做运算，确保与升维内积一个效果

K (x 1, x 2) = (< x 1, x 2 > + 1) 2 2 (16)

$K(x_1,x_2)=(<x_1, x_2>+1)^2\phantom{2}(16)$
常用的核函数：

多项式核
$K (x 1, x 2) = (< x 1, x 2 > + R) d$ $K(x_1,x_2)=(<x_1,x_2>+R)^d$
$\phantom{2}$ 维度映射 $R^m -> R^{m+d}$
高斯核

K(x1,x2)=e−||x1−x2||22σ2

2 维度映射 Rm−>∞ ，
- 如果 $\sigma$ 很大，高次特征的权重衰减的很快，近似于映射到一个低维空间
- 如果 $\sigma$ 很小，则可以将任意数据映射为线性可分。但有可能出现过拟合问题
- 因此通过调节 $\sigma$ ，高斯核具有相当高的灵活性。是使用最广泛的核函数之一
线性核
$K (x 1, x 2) = < x 1, x 2 >$ $K(x_1,x_2)=<x_1,x_2>$
退化为线性SVM