线性可分支持向量机
本文包括以下部分
- 1.支持向量机概述
- 2.线性可分支持向量机与硬间隔最大化
- (2.1)基本定义
- (2.2)函数间隔与几何间隔的关系
- (2.3) 硬间隔最大化
- (2.4) 支持向量和间隔边界 - 3. 对偶算法
1.支持向量机概述
支持向量机是一种二类分类模型.它的基本模型是定义在特征空间上的间隔最大的线性分类器。其学习策略是间隔最大化,可形式化为求解凸二次规划问题,也等价于正则化的合叶损失函数的最小化问题。
支持向量机学习方法包含构建由简至繁的模型,可分为线性可分支持向量机、线性支持向量机、非线性支持向量机。
- 线性可分支持向量机:当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,又称为硬间隔支持向量机.
- 线性支持向量机:当训练数据近似线性可分时,通过软间隔最大化,也学习一个线性分类器,称为软间隔支持向量机.
- 非线性支持向量机:当训练数据不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机.
当输入空间为欧氏空间或离散集合,特征空间为希尔伯特空间时,核函数表示将输入从输入空间映射得到特征空间之间的内积,通过使用核函数可以学习非线性支持向量机,等价于隐式地在高维的特征空间中学习线性支持向量机,这样的方法称为核技巧。核方法是比支持向量机更为一般的机器学习方法。
本文按照上式思路首先记录线性可分支持向量机
2.线性可分支持向量机与硬间隔最大化
(2.1)基本定义
输入都由输入空间转换到特征空间,支持向量机的学习是在特征空间进行的。
假设给第一个特征空间上的训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} T={
(x1,y1),(x2,y2),⋯,(xN,yN)}其中 x i ∈ X = R n , y i ∈ Y = { + 1 , − 1 } , i = 1 , 2 , ⋯   , N x_{i} \in \mathcal{X}=\mathbf{R}^{n}, \quad y_{i} \in \mathcal{Y}=\{+1,-1\}, \quad i=1,2, \cdots, N xi∈X=Rn,yi∈Y={
+1,−1},i=1,2,⋯,N, x i x_i xi为第 i i i个特征向量,也称为实例, y i y_i yi为 x i x_i xi的类标记,当 y i = + 1 y_i=+1 yi=+1时,称 x i x_i xi为正例;当时 y i = − 1 y_i=-1 yi=−1,称 x i x_i xi为负例, ( x i , y i ) (x_{i}, y_{i}) (xi,yi)称为样本点.再假设训练数据集是线性可分的.
定义1(线性可分支持向量机)给定线性可分训练数据集,通过间隔最大化或等价地求解相应的凸二次规划问题学习得到分离超平面为
w ∗ ⋅ x + b ∗ = 0 ( 1 ) w^{*} \cdot x+b^{*}=0 \quad(1) w∗⋅x+b∗=0(1)以及相应的分类决策函数 f ( x ) = sign ( w ∗ ⋅ x + b ∗ ) ( 2 ) f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right) \quad(2) f(x)=sign(w∗⋅x+b∗)(2)称为线性可分支持向量机
定义2 (函数间隔) 对于给定的训练数据集 T T T和超平面 ( w , b ) (w,b) (w,b),定义超平面 ( w , b ) (w,b) (w,b)关于样本点 ( x i , y i ) (x_{i}, y_{i}) (xi,yi)的函数间隔为 γ ^ i = y i ( w ⋅ x i + b ) ( 3 ) \hat{\gamma}_{i}=y_{i}\left(w \cdot x_{i}+b\right) \quad(3) γ^i=yi(w⋅xi+b)(3) 定义超平面 ( w , b ) (w,b) (w,b)关于训练数据集 T T T的函数间隔为超平面 ( w , b ) (w,b) (w,b)关于中所有样本点 ( x i , y i ) (x_{i}, y_{i}) (xi,yi)的函数间隔之最小值,即 γ ^ = min i = 1 , ⋯   , N γ ^ i ( 4 ) \hat{\gamma}=\min _{i=1, \cdots, N} \hat{\gamma}_{i} \quad(4) γ^=i=1,⋯,Nminγ^i(4)定义3 (几何间隔) 对于给定的训练数据集 T T T和超平面 ( w , b ) (w,b) (w,b),定义超平面 ( w , b ) (w,b) (w,b)关于样本点 ( x i , y i ) (x_{i}, y_{i}) (xi,yi)的几何间隔为
γ i = y i ( w ∥ w ∥ ⋅ x i + b ∥ w ∥ ) ( 5 ) \gamma_{i}=y_{i}\left(\frac{w}{\|w\|} \cdot x_{i}+\frac{b}{\|w\|}\right) \quad (5) γi=yi(∥w∥w⋅xi+∥w∥b)(5)定义超平面 ( w , b ) (w,b) (w,b)关于训练数据集 T T T的函数间隔为超平面 ( w , b ) (w,b) (w,b)关于中所有样本点 ( x i , y i ) (x_{i}, y_{i}) (xi,yi)的几何间隔之最小值,即 γ = min i = 1 , ⋯   , N γ i ( 6 ) \gamma=\min _{i=1, \cdots, N} \gamma_{i} \quad(6) γ=i=1,⋯,Nminγi(6)下图为函数间隔与几何间隔示例:
![图片名称](https://img-blog.csdnimg.cn/20190510113344332.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3h1X2FtcGw=,size_16,color_FFFFFF,t_70)
上图给出了超平面 ( w , b ) (w,b) (w,b)及其法向量 w w w,点 A A A表示某一实例 x i x_i xi,其类标记 y i = + 1 y_i=+1 yi=+1,点 A A A与超平面 ( w , b ) (w,b) (w,b)的距离由线段 A B AB AB给出,记作 γ i \gamma_i γi,
γ i = w ∥ w ∥ ⋅ x i + b ∥ w ∥ \gamma_{i}=\frac{w}{\|w\|} \cdot x_{i}+\frac{b}{\|w\|} γi=∥w∥w⋅xi+∥w∥b其中, ∥ w ∥ \|w\| ∥w∥为 w w w的 L 2 L_2 L2范数,这是点 A A A在超平面正的一侧的情形,若点 A A A在超平面负的一侧,那么有 γ i = − ( w ∥ w ∥ ⋅ x i + b ∥ w ∥ ) \gamma_{i}=-\left(\frac{w}{\|w\|} \cdot x_{i}+\frac{b}{\|w\|}\right) γi=−(∥w∥w⋅xi+∥w∥b)当样本点 ( x i , y i ) (x_{i}, y_{i}) (xi,yi)被超平面 ( w , b ) (w,b) (w,b)正确分类时,点 x i x_i xi与超平面 ( w , b ) (w,b) (w,b)的距离是 γ i = y i ( w ∥ w ∥ ⋅ x i + b ∥ w ∥ ) \gamma_{i}=y_i\left(\frac{w}{\|w\|} \cdot x_{i}+\frac{b}{\|w\|}\right) γi=yi(∥w∥