统计学习方法第七章——支持向量机

7.1线性可分支持向量机和硬间隔最大化
7.1.1 线性可分支持向量机

给定线性可分训练集,通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为
w ∗ ⋅ x + b ∗ = 0 w^*\cdot x+b^*=0 wx+b=0
以及相应的分类决策函数
f ( X ) = s i g n ( w ∗ ⋅ x + b ∗ = 0 ) f(X)=sign(w^*\cdot x+b^*=0) f(X)=sign(wx+b=0)
称为线性可分支持向量机。

7.1.2 函数间隔和几何间隔

首先要知道点到超平面 w ⋅ x + b = 0 w\cdot x+b=0 wx+b=0的距离 d = ∣ w ⋅ x + b ∣ ∣ ∣ w ∣ ∣ d=\frac{|w\cdot x+b|}{||w||} d=wwx+b(推导见这里)

函数间隔为:
γ ^ i = y i ( w ⋅ x i + b ) {\hat{\gamma}}_i=y_i(w\cdot x_i+b) γ^i=yi(wxi+b)
所有样本点 ( x i , y i ) (x_i,y_i) (xi,yi)的函数间隔之间的最小值,即
γ ^ = m i n i = 1 , ⋯   , N γ ^ i \hat{\gamma}=\underset{i=1,\cdots ,N}{min}\hat{\gamma}_i γ^=i=1,,Nminγ^i
函数间隔可以表示分类预测的正确性及确信度。但是选择分离超平面时, 只有函 数间隔还不够。因为只要成比例地改变 w w w b b b, 例如将它们改为 2 w 2 w 2w 2 b 2 b 2b, 超平面并没有改变,但函数间隔却变成了原来的2倍。 γ ^ i = y i ( 2 w ⋅ x i + 2 b ) = 2 y i ( w ⋅ x i + b ) {\hat{\gamma}}_i=y_i(2w\cdot x_i+2b)=2y_i(w\cdot x_i+b) γ^i=yi(2wxi+2b)=2yi(wxi+b),这一事实启示我们,可以对分离超平面的法向量 w w w加某些约束,如规范化, ∣ ∣ w ∣ ∣ = 1 ||w||=1 w=1,这时函数间隔就变成了几何间隔。
γ i = y i ( w ∣ ∣ w ∣ ∣ ⋅ x i + b ∣ ∣ w ∣ ∣ ) {\gamma}_i=y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||}) γi=yi(wwxi+wb)
所有样本点 ( x i , y i ) (x_i, y_i) (xi,yi)的几何间隔的最小值,即
γ = m i n i = 1 , ⋯   , N γ i \gamma = \underset{i=1,\cdots ,N}{min}{\gamma}_i γ=i=1,,Nminγi
∣ ∣ w ∣ ∣ = 1 ||w||=1 w=1时,函数间隔和几何间隔相等,如果超平面参数 w w w和b成比例地改变(超平面并没有改变),函数间隔也按此比例改变,而几何间隔不变。

7.1.3 间隔最大化

最大间隔分离超平面的存在唯一性,存在性书上证明很容易看懂,下面来证明唯一性。

假设存在两个最优解 ( w 1 ∗ , b 1 ∗ ) (w^*_1,b^*_1) (w1,b1) ( w 2 ∗ , b 2 ∗ ) (w^*_2,b^*_2) (w2,b2)。显然 ∣ ∣ w 1 ∗ ∣ ∣ = ∣ ∣ w 2 ∗ ∣ ∣ = c ||w^*_1||=||w^*_2||=c w1=w2=c,其中c是一个常数。令

w = w 1 ∗ + w 2 ∗ 2 , b = b 1 ∗ + b 2 ∗ 2 w=\frac{w_{1}^{*}+w_{2}^{*}}{2}, b=\frac{b_{1}^{*}+b_{2}^{*}}{2} w=2w1+w2,b=2b1+b2, 易知 ( w , b ) (w, b) (w,b) 也是解。
c ⩽ ∣ ∣ w 1 ∗ + w 2 ∗ 2 ∣ ∣ ⩽ 1 2 ∣ ∣ w 1 ∗ ∣ ∣ + 1 2 ∣ ∣ w 2 ∗ ∣ ∣ = c c\leqslant ||\frac{w^*_1+w^*_2}{2}||\leqslant \frac{1}{2}||w^*_1||+\frac{1}{2}||w^*_2||=c c2w1+w221w1+21w2=c
所以 ∣ ∣ w ∣ ∣ = 1 2 ∣ ∣ w 1 ∗ ∣ ∣ + 1 2 ∣ ∣ w 2 ∗ ∣ ∣ ||w||=\frac{1}{2}||w^*_1||+\frac{1}{2}||w^*_2|| w=21w1+21w2,因此 w 1 ∗ = λ w 2 ∗ , ∣ λ ∣ = 1 w^*_1=\lambda w^*_2, |\lambda|=1 w1=λw2,λ=1,若 λ = − 1 , 则 w = 0 \lambda=-1,则w=0 λ=1w=0不符合题意,所以 w 1 ∗ = w 2 ∗ w^*_1=w^*_2 w1=w2。下面再证 b 1 ∗ = b 2 ∗ b^*_1=b^*_2 b1=b2。设 x 1 ′ x_{1}^{\prime} x1 x 2 ′ x_{2}^{\prime} x2 是集合 { x i ∣ y i = + 1 } \left\{x_{i} \mid y_{i}=+1\right\} {xiyi=+1} 中分别对应于 ( w ∗ , b 1 ∗ ) \left(w^{*}, b_{1}^{*}\right) (w,b1) ( w ∗ , b 2 ∗ ) \left(w^{*}, b_{2}^{*}\right) (w,b2) 使得问题的不等式等号成立的点, x 1 ′ ′ x_{1}^{\prime \prime} x1 x 2 ′ ′ x_{2}^{\prime \prime} x2 是集合 { x i ∣ y i = − 1 } \left\{x_{i} \mid y_{i}=-1\right\} {xiyi=1} 中分别对应于 ( w ∗ , b 1 ∗ ) \left(w^{*}, b_{1}^{*}\right) (w,b1) ( w ∗ , b 2 ∗ ) \left(w^{*}, b_{2}^{*}\right) (w,b2) 使得问题的不等式等号成立的点。

IMG_0346

IMG_0347

7.1.4 学习的对偶算法

下面是对拉格朗日函数的一个补充解释

IMG_0348

下面是对(7.28)式的补充解释

IMG_0349

7.3 非线形支持向量机和核函数

证明运算*是空间S的内积的补充

IMG_0350

IMG_0351

IMG_0352

7.4 序列最优最小化算法

以下是对 α 2 \alpha_{2} α2的取值范围进行的推导

IMG_0353

IMG_0354

补充 α 2 n e w \alpha_{2}^{new} α2new 怎么得到 α 1 n e w \alpha_{1}^{new} α1new

IMG_0355

7.4.2 变量的选择

关于SMO算法中第一个变量的选择的KKT条件的补充,可以看这个博客,下面是我自己对博客中的内容进行了优化,建议两个结合起来看。

IMG_0356

IMG_0357

参考:

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值