SVM超平面推导

最新推荐文章于 2024-04-06 13:12:28 发布

SongpingWang

最新推荐文章于 2024-04-06 13:12:28 发布

阅读量1.1k

点赞数

分类专栏：机器学习—算法及代码文章标签： SVM超平面推导

本文链接：https://blog.csdn.net/wsp_1138886114/article/details/82290786

版权

机器学习—算法及代码专栏收录该内容

88 篇文章 51 订阅

订阅专栏

目标：SVM模型是为求得使几何间隔最大的超平面： $y = w·x+b$

由点面之间的距离：

y i ( w x i + b ) | | w | | = γ i

$\frac{y_i(wx_i+b)}{||w||} = \gamma_i$
其中

γ γ $γ$ 是几何间隔，

w

$w$ 是超平面法向量，

b b $b$ 是超平面截距，

y_{i}

$y_i$ 是样本

i i $i$ 的标记。

考虑到几何问题与函数问题的关系：

\begin{aligned} (1) & \underset{w, b}{M a x} & γ = \frac{\hat{γ}}{| | w | |} \\ (2) & S . t . & \frac{y_{i} (w x_{i} + b)}{| | w | |} ⩾ γ i = 1, 2, 3... N \end{aligned}

$\begin{align} \underset{w,b}{Max} &~~~~\gamma = \frac{\hat{\gamma}}{||w||}\tag{1}\\ S.t.&~~~~\frac{y_i(wx_i+b)}{||w||} \geqslant \gamma~~~~i=1,2,3...N \tag{2} \end{align}$

因为： $\hat{\gamma}$ 的取值不会影响上述不等式的成立，所以不妨取其为1。
注意到， $Max: \frac{1}{||w||} \Leftrightarrow Min: \frac{1}{2}||w||^2 （对w,b参数）$ 等价，于是:

问题变为：

M i n w, b S . t . 1 2 | | w | | 2 y i (w x i + b) - 1 ⩾ 0 i = 1, 2, 3 \dots ., N (3) (4)

$\begin{align} \underset{w,b}{Min} & ~~~~\frac{1}{2}||w||^2 \tag{3}\\ S.t. &~~~~y_i(wx_i+b)-1 \geqslant 0 ~~~~i=1,2,3….,N\tag{4} \end{align}$

构建拉格朗日函数其中， $\alpha=(α_1,α_2,α_3,....α_i,)^T ~~~ i=1,2,3...N$ ：

L (w, b, α) = = 1 2 | | w | | 2 - \sum i = 1 N α (y i (w \cdot x i + b) - 1) 1 2 | | w | | 2 - \sum i = 1 N α y i (w \cdot x i + b) + \sum i = 1 N α (5) (6)

$\begin{align} L(w,b, α)=&\frac{1}{2}||w||^2- \sum_{i=1}^{N}α(y_i (w·x_i+b)-1) \tag{5}\\ =& \frac{1}{2}||w||^2- \sum_{i=1}^{N}αy_i (w·x_i+b)+ \sum_{i=1}^{N}α \tag{6} \end{align}$

根据拉格朗日对偶性，原始问题的对偶问题是极大极少问题：

max α min w, b L (w, b, α)

$\underset{α}{\max} \underset{w,b}{\min}L(w,b,α)$

可以分两步进行，先求L 对 w,b 的最小值，再求L对 $α$ 的最大值：

（1）求 $\underset{w,b}{\min}L(w,b,\alpha)$ ：对 w,b 求偏导,令其等于0：

▽ w L (w, b, α) = ▽ b L (w, b, α) = w - \sum i N α y i x i = 0 \sum i N α y i = 0 (7) (8)

$\begin{align} ▽_wL(w,b, α)= &w-\sum_{i}^{N}α~y_ix_i =0\tag{7}\\ ▽_bL(w,b, α)=& \sum_{i}^{N}α~y_i = 0\tag{8} \end{align}$
得到：
$w = \sum i = 1 N α y i x i \sum i = 1 N α y i = 0 (A) (B)$ $\begin{align} w=\sum_{i=1}^{N}α~y_ix_i\tag{A}\\ \sum_{i=1}^{N}α~y_i = 0 \tag{B} \end{align}$

将（A）式代入拉格朗日函数，并使用（B）式，可以得到： $\underset{w,b}{\min}L(w,b,\alpha)$

$L (w, b, α) = = 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i y i ((\sum i = 1 N α j x j y j) \cdot x i + b) + \sum i = 1 N α i - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i (509) (510)$ $\begin{align} L(w,b,\alpha)= &\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i·x_j)- \sum_{i=1}^{N}\alpha_iy_i\left(\left (\sum_{i=1}^{N}\alpha_jx_jy_j\right )\cdot x_i+b\right )+\sum_{i=1}^{N}\alpha_i\\ =&-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i·x_j)+\sum_{i=1}^{N}\alpha_i \end{align}$

（2）求 $\underset{w,b}{\min}L(w,b,\alpha) 对 α$ 的极大值，即对偶问题:：

$max α S . t . - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i \sum i = 1 N α y i = 0 (9) (10)$ $\begin{align} \underset{α}{\max}~~&-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i·x_j)+\sum_{i=1}^{N}\alpha_i \tag{9}\\ S.t. ~~&\sum_{i=1}^{N}α~y_i = 0\tag{10} \end{align}$
由对偶问题转化为：
$min α S . t . 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i \sum i = 1 N α y i = 0 (11) (12)$ $\begin{align} \underset{α}{\min}~~&\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i·x_j)-\sum_{i=1}^{N}\alpha_i \tag{11}\\ S.t. ~~&\sum_{i=1}^{N}α~y_i = 0\tag{12} \end{align}$
对(11)式关于 $α_i$ 的偏导并令其为 0，结合约束条件可以解得 $α^*$ ，
由于原始问题与对偶问题满足共解条件，所以可以使用α*代入式（A）和式（B）
求得(C)
$w * = \sum i = 1 N α * i y i x i$ $w^*=\sum_{i=1}^{N}α_i^*y_ix_i$
由KKT互补条件知：
$α * i (y i (w * x i + b *) - 1 ） = 0 i = 1, 2, 3, \dots \dots . . N$ $α_i^*(y_i (w^*x_i+b^*)-1）=0 ~~~~~~i=1,2,3,……..N$
因为 $w^*$ 不为0，显然有 $α_j^*>0$ 存在，对于这样的 $α_j^*$ ， $j$ 可以使下式成立
$\begin{aligned} (15) & 由： & y_{j} (w^{*} \cdot x_{j} + b^{*}) - 1 = 0 \\ (16) & \Rightarrow & y_{j} (w^{*} \cdot x_{j} + b^{*}) - y_{j}^{2} = 0 \\ (17) & \Rightarrow & w^{*} x_{j} + b^{*} - y_{j} = 0 \end{aligned}$ $\begin{align} 由：&~~~~y_j(w^*·x_j+b^*)-1=0 \tag{15}\\ \Rightarrow & ~~~~y_j(w^*·x_j+b^*)- y_j^2=0 \tag{16}\\ \Rightarrow & ~~~~w^*x_j+b^*- y_j=0 \tag{17} \end{align}$
将（C）式代入上式，可以得到：
$\sum i = 1 N α * i y i x i x j + b * - y j = 0$ $\sum_{i=1}^{N}α_i^*y_ix_ix_j+ b^* - y_j =0$

$b * = y j - \sum i = 1 N α * i y i x i x j$ $b^*=y_j - \sum_{i=1}^{N}α_i^*y_ix_ix_j$

至此，超平面求出，即：

$\sum i = 1 N α * i \cdot y i (x \cdot x i) + b * = 0$ $\sum_{i=1}^{N}α_i^*·y_i(x·x_i)+b^* =0$
分类决策函数可以写成
$f (x) = s i g n (\sum i = 1 N α * i \cdot y i (x \cdot x i) + b *)$ $f(x)=sign\left ( \sum_{i=1}^{N}α_i^*·y_i(x·x_i)+b^* \right )$

SongpingWang

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
SVM超平面推导

SVM模型是为求得使几何间隔最大的超平面：y=w⋅x+by=w·x+by = w·x+b 即求：Max:γ||w||&amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;nbsp;(对w,b参数)Max:γ||w||&amp;amp;amp;amp;amp
复制链接

扫一扫