SVM笔记（三）线性可分支持向量机

最新推荐文章于 2024-06-11 15:17:35 发布

xmdxcsj

最新推荐文章于 2024-06-11 15:17:35 发布

阅读量626

点赞数

分类专栏：机器学习文章标签： svm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xmdxcsj/article/details/51511247

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

预备

适合场景

如果训练输入线性可分，通过应间隔最大化学习得到的线性分类器称为线性可分支持向量机。
假设特征空间上的训练数据集：

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
其中

xi $x_i$ 表示第i个特征向量，

yi∈{+1,−1} $y_i\in\{+1,-1\}$ 为

xi $x_i$ 的类标记。
学习目标是在特征空间找到一个分离超平面：

w \cdot x + b = 0

$w\cdot x+b=0$
可以将正负样例分开，即正负样例分布在超平面的两侧。

函数间隔和几何间隔

定义超平面关于训练数据集T的函数间隔为超平面 $(w,b)$ 关于T中所有样本点的函数间隔最小值

γ' = min 1, 2, . . ., N γ' i

$\gamma'=\min_{1,2,...,N}\gamma'_i$
其中

γ′i=yi(w⋅xi+b) $\gamma'_i=y_i(w\cdot x_i+b)$
定义超平面关于训练数据集T的几何间隔为超平面

(w,b) $(w,b)$ 关于T中所有样本点的几何间隔最小值

γ = min 1, 2, . . ., N γ i

$\gamma=\min_{1,2,...,N}\gamma_i$
其中

γi=yi(w||w||⋅xi+b||w||) $\gamma_i=y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||})$
几何间隔的物理意义是指点到超平面的距离，函数间隔则会随着

w $w$ 和

b $b$ 成比例的缩放而改变。

构建目标函数

目标是找到能够正确划分训练数据集并且几何间隔最大的分离超平面。直观上面理解就是距离分界面最近的距离最大化。可以表示成如下形式：

max w, b γ

$\max_{w,b}\gamma$

s . t . y i (w | | w | | \cdot x i + b | | w | |) \geq γ, i = 1, 2, . . ., N

$s.t. y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||})\ge\gamma , i=1,2,...,N$
基于几何间隔和函数间隔的关系，上式等价于

max w, b γ ' | | w | |

$\max_{w,b}\frac{\gamma'}{||w||}$

s . t . y i (w \cdot x i + b) \geq γ', i = 1, 2, . . ., N

$s.t. y_i(w\cdot x_i+b)\ge\gamma' , i=1,2,...,N$
考虑到以

λ $\lambda$ 等比例改变

w $w$ 和

b $b$ ，对于上式没有影响，这里选择固定一个

λ $\lambda$ 使得

γ′=1 $\gamma'=1$ ，那么上式等价于：

min w, b 1 2 | | w | | 2

$\min_{w,b}\frac{1}{2}||w||^2$

s . t . y i (w \cdot x i + b) - 1 \geq 0, i = 1, 2, . . ., N

$s.t. y_i(w\cdot x_i+b)-1\ge 0, i=1,2,...,N$
根据上式的最优解

w∗ $w^*$ 和

b∗ $b^*$ 可以构建出分离超平面和分类决策函数如下：

w * \cdot x + b * = 0

$w^*\cdot x+b^*=0$

f (x) = s i g n (w * \cdot x + b *)

$f(x)=sign(w^*\cdot x+b^*)$
训练数据集中的样本点中与分离超平面距离最近的样本点称为支持向量，对应于约束条件中的等号，即

y i (w \cdot x i + b) - 1 = 0

$y_i(w\cdot x_i+b)-1= 0$
对应

y={−1,+1} $y=\{-1,+1\}$ ，支持向量分布在两条超平面上面：

(w \cdot x i + b) - 1 = 0

$(w\cdot x_i+b)-1= 0$

(w \cdot x i + b) + 1 = 0

$(w\cdot x_i+b)+1= 0$
Alt text

Alt text

所以SVM分类中只有支持向量对应的实例在分类中起作用，其他实例点并没有作用。

求解的对偶算法

使用拉格朗日对偶性对原始问题求解。首先引入拉格朗日乘子 $\alpha_i\ge0,i=1,2,...N$ ,构建拉格朗日函数:

L (w, b, α) = 1 2 | | w | | 2 - \sum i = 1 N α i y i (w \cdot x i + b) + \sum i = 1 N α i

$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^{N}\alpha_iy_i(w\cdot x_i+b)+\sum_{i=1}^{N}\alpha_i$
其中，

α=(α1,α2,...,αN)T $\alpha=(\alpha_1,\alpha_2,...,\alpha_N)^T$ 称为拉格朗日乘子向量。
原始问题对应的对偶问题如下：

max α min w, b L (w, b, α)

$\max_{\alpha}\min_{w,b}L(w,b,\alpha)$
根据

L(w,b,α) $L(w,b,\alpha)$ 对于

w $w$ 和

b $b$ 的偏导为0，可将原始问题转化为：

min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i

$\min_{\alpha}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_i\cdot x_j)-\sum_{i=1}^{N}\alpha_i$

\sum i = 1 N α i y i = 0

$\sum_{i=1}^{N}\alpha_iy_i=0$

α i \geq 0, i = 1, 2, . . ., N

$\alpha_i\ge0,i=1,2,...,N$
假设

α∗=(α∗1,α∗2,...,α∗N)T $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ 是上面问题的最优解，那么:

w * = \sum i = 1 N α * i y i x i

$w^*=\sum_{i=1}^{N}\alpha_i^*y_ix_i$
选择一个下标j，使得

α∗j>0 $\alpha_j^*\gt0$ ，可得：

b * = y j - \sum i = 1 N α * i y i (x i \cdot x j)

$b^*=y_j-\sum_{i=1}^{N}\alpha_i^*y_i(x_i\cdot x_j)$
根据KKT互补条件可知，

α∗i>0 $\alpha_i^*\gt0$ 对应的实例为支持向量。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SVM笔记（三）线性可分支持向量机

预备适合场景如果训练输入线性可分，通过应间隔最大化学习得到的线性分类器称为线性可分支持向量机。假设特征空间上的训练数据集： T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} 其中xix_i表示第i个特征向量，yi∈{+1,−1}y_i\in\{+1,-1\}为xix_i的类标记。学习目标是在特征空
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。