机器学习—支持向量机理论详细推导（含例题讲解）（三）

最新推荐文章于 2024-06-11 17:16:57 发布

旅途中的宽~

最新推荐文章于 2024-06-11 17:16:57 发布

阅读量1.4k

点赞数 3

分类专栏：机器学习算法—SVM（理论+实战项目）文章标签：机器学习支持向量机算法人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/125864082

版权

机器学习算法—SVM（理论+实战项目）专栏收录该内容

7 篇文章 6 订阅

订阅专栏

9.对偶算法

:构造优化问题 $\begin{split} &\min_{\alpha}\;\theta_{D}(\alpha)=\min_{\alpha}\;\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^{N}\alpha_i\\ &s.t.\;\sum_{i=1}^{N}\alpha_iy_i=0\;,\;\alpha_i\geq0\;,\;i=1,2,\cdots,N \end{split}$

我们求得的 $\alpha^{*}=(\alpha_1^{*},\alpha_2^{*},\cdots,\alpha_N^{*})^T$ ，N个元素，存在 $\alpha_j^{*}>0$ ， $j$ 对应样本点 $x_j,y_j)$ 。

(其实我们用的 $x_j,y_j)$ 就是支持向量)。

:计算参数 $\omega^{*}=\sum_{i=1}^{N}\alpha_i^{*}y_ix_i$

$\begin{split} &b^{*}=y_j-\sum_{i=1}^{N}\alpha_i^{*}y_i(x_i\cdot x_j)\\ \Rightarrow &y_j-\omega^{*}\cdot x_j=b^{*}\\ \Rightarrow &\omega^{*}\cdot x_j+b^{*}=y_j\in\{-1,+1\} \end{split}$

我们上面等式恰好表示间隔边界。

如何找支持向量呢？

我们看一个例题:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JkJpx5r0-1658189645266)(3.png)]

优化问题 $\begin{split} &\min\;\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^{N}\alpha_i\\ &s.t.\;\sum_{i=1}^{N}y_i\alpha_i=0\;,\;\alpha_i\;,\;i=1,2,3 \end{split}$

当 $x_1\;,\;x_1$ 时: $\alpha_1\alpha_1y_1y_1(x_1\cdot x_1)=18\alpha_1^2$

当 $x_1\;,\;x_2$ 时:
$2\alpha_1\alpha_2y_1y_2(x_1\cdot x_2)=42\alpha_1\alpha_2$

当 $x_1\;,\;x_3$ 时:
$2\alpha_1\alpha_3y_1y_3(x_1\cdot x_3)=-12\alpha_1\alpha_3$

当 $x_2\;,\;x_2$ 时: $\alpha_2\alpha_2y_2y_2(x_2\cdot x_2)=25\alpha_2^2$

当 $x_2\;,\;x_3$ 时:
$2\alpha_2\alpha_3y_2y_3(x_2\cdot x_3)=-14\alpha_2\alpha_3$

当 $x_3\;,\;x_3$ 时: $\alpha_3\alpha_3y_3y_3(x_3\cdot x_3)=2\alpha_3^2$

我们代入: $\begin{split} \Rightarrow &\min\;\frac{1}{2}(18\alpha_1^2+25\alpha_2^2+2\alpha_3^2+42\alpha_1\alpha_2-12\alpha_1\alpha_3-14\alpha_2\alpha_3)-(\alpha_1+\alpha_2+\alpha_3)\\ &\sum_{i=1}^{N}y_i\alpha_i=0\Rightarrow \alpha_1+\alpha_2-\alpha_3=0 \end{split}$

我们将 $\alpha_1+\alpha_2-\alpha_3=0$ 代入计算:
$\Rightarrow \min\;4\alpha_1^2+\frac{13}{2}\alpha_2^2+10\alpha_1\alpha_2-2\alpha_1-2\alpha_2\\=s(\alpha_1,\alpha_2)$

我们需要找 $s(\alpha_1,\alpha_2)$ 的最小值。

如果求偏导数: $\left\{ \begin{split} &\frac{\partial s}{\partial \alpha_1}=8\alpha_1+10\alpha_2-2=0\\ &\frac{\partial s}{\partial \alpha_2}=13\alpha_2+10\alpha_1-2=0 \end{split} \right.$

我们解出: $\left\{ \begin{split} &\alpha_1=\frac{3}{2}\\ &\alpha_2=-1 \end{split} \right.$

因为 $\alpha_1\;,\;\alpha_2\;,\;\alpha_3\geq0$ ，所以不满足条件。

如果不能使用费马原理，我们猜测是否在边界上。

（1）如果 $\alpha_1=0$
$s(0,\alpha_2)=\frac{13}{2}\alpha_2^2-2\alpha_2\Rightarrow \alpha_2=\frac{2}{13}\;,\;s=-\frac{2}{13}$

（2）如果 $\alpha_2=0$
$s(\alpha_1,0)=4\alpha_1^2-2\alpha_1\Rightarrow \alpha_1=\frac{1}{4}\;,\;s=-\frac{1}{4}$

我们解出 $\alpha_1=\frac{1}{4}\;,\;\alpha_2=0\;,\;\alpha_3=\frac{1}{4}$ ，说明 $x_1$ 和 $x_3$ 是支持向量。

求解参数 $\begin{split} &\omega^{*}=\sum_{i=1}^{N}\alpha_i^{*}y_ix_i=\frac{1}{4}(3,3)^T-\frac{1}{4}(1,1)^T=(\frac{1}{2},\frac{1}{2})^T\\ &b^{*}=y_j-\omega^{*}\cdot x_j\\ \Rightarrow &b^{*}=1-(\frac{1}{2},\frac{1}{2})^T\cdot (3,3)^T=1-3=-2\;,\;j=1\\ &b^{*}=-1-(\frac{1}{2},\frac{1}{2})^T\cdot (1,1)^T=-1-1=-2\;,\;j=3 \end{split}$

分离超平面: $\frac{1}{2}x^{(1)}+\frac{1}{2}x^{(2)}-2=0$

决策函数为: $f(x)=sign(\frac{1}{2}x^{(1)}+\frac{1}{2}x^{(2)}-2)$

10.线性支持向量机的原始问题

训练集:
$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}\;,\;x_i\in\chi\in R^n\;,\;y_i\in\{+1,-1\}$

线性可分: $\begin{split} &y_i(\omega\cdot x_i+b)\geq1\quad(1)\\ &y_i(\omega\cdot x_i+b)+\xi_i\geq1\;,\;\xi_{i}=(0,1)\quad(2)\\ &y_i(\omega\cdot x_i+b)+\xi_i\geq1\;,\;\xi_{i}>1\quad(3) \end{split}$

对于 $(1)$ 表示函数间隔 $\geq1$ ；对于 $(2)$ 表示位于间隔内；对于 $(3)$ 表示位于间隔外（异）。

上述的分类比较有弹性，所以称为软间隔:
$y_i(\omega\cdot x_i+b)+\xi_i\geq1$

$\xi_i$ 叫做弹性因子，也叫松弛变量。

目标函数: $\frac{1}{2}||\omega||^2+c\sum_{i=1}^{N}\xi_i$

上式中， $c$ 表示松弛变量起作用的大小，又叫做惩罚系数。

当 $c$ 较大时，对误分类惩罚大；当 $c$ 较小时，取决于第一部分 $\frac{1}{2}||\omega||^2$ ，对误分类惩罚小。

此时我们的优化问题为: $\begin{split} &\min_{\omega,b,\xi_i}\;\frac{1}{2}||\omega||^2+c\sum_{i=1}^{N}\xi_i\\ &s.t.\;y_i(\omega\cdot x_i+b)+\xi_i\geq1\;,\;\xi_i\geq0\;,\;,i=1,2,\cdots,N \end{split}$

我们接下来的目的是解 $\omega^{*}\;,\;b^{*}$ 。

线性支持向量机的对偶问题:

我们的原始问题如下所示: $\begin{split} &\frac{1}{2}||\omega||^2+c\sum_{i=1}^{N}\xi_i\\ &s.t.\;1-\xi_i-y_i(\omega\cdot x_i+b)\leq0\;,\;-\xi_i\leq0\;,\;i=1,2,\cdots,N \end{split}$

得到广义拉格朗日函数为: $\begin{split} L(\omega,b,\xi_i,\alpha,\mu)=\frac{1}{2}||\omega||^2+c\sum_{i=1}^{N}\xi_i+\sum_{i=1}^{N}\alpha_i[(1-\xi_i-y_i(\omega\cdot x_i+b))]-\sum_{i=1}^{N}\mu_i\xi_i \end{split}$

原始问题: $\min_{\omega,b,\xi_i}\;\max_{\alpha,\mu}\;L$

对偶问题: $\max_{\alpha,\mu}\;\min_{\omega,b,\xi_i}\;L$

（1）内部极小化 $\theta_{D}(\alpha,\mu)$ $\begin{split} &\frac{\partial L}{\partial \omega}=\omega-\sum_{i=1}^{N}\alpha_iy_ix_i=0\\ &\frac{\partial L}{\partial b}=-\sum_{i=1}^{N}\alpha_iy_i=0\\ &\frac{\partial L}{\partial \xi_i}=c-\alpha_i-\mu_i=0\;,\;,i=1,2,\cdots,N\\ \Rightarrow &\left\{ \begin{split} &\omega=\sum_{i=1}^{N}\alpha_iy_ix_i\\ &\sum_{i=1}^{N}\alpha_iy_i=0\\ &c-\alpha_i-\mu_i=0\;,\;i=1,2,\cdots,N \end{split} \right. \end{split}$

代入计算: $\begin{split} L&=\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^{N}(c-\alpha_i-\mu_i)\xi_i+\sum_{i=1}^{N}\alpha_i\\ &-\sum_{i=1}^{N}\alpha_iy_i\sum_{j=1}^{N}\alpha_jy_j(x_j\cdot x_i)-\sum_{i=1}^{N}\alpha_iy_ib\\ &=\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^{N}-\sum_{i=1}^{N}\alpha_iy_i\sum_{j=1}^{N}\alpha_jy_j(x_j\cdot x_i)\\ &=-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^{N}\alpha_i\\ &=\theta_{D}(\alpha,\mu) \end{split}$

（2）外部极大化: $\max\;\theta_{D}(\alpha,\mu)$

对偶算法: $\begin{split} &\min\;\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^{N}\\ &s.t.\;\sum_{i=1}^{N}\alpha_iy_i=0\;,\;0\leq\alpha_i\leq c\;,\;i=1,2,\cdots,N \end{split}$

其中， $\mu_i=c-\alpha_i\geq0\Rightarrow \alpha_i\leq c$

我们继续: $\begin{split} &\omega^{*}-\sum_{i=1}^{N}\alpha_i^{*}y_ix_i=0\\ \Rightarrow &\omega^{*}=\sum_{i=1}^{N}\alpha_i^{*}y_ix_i \end{split}$

对KKT条件再次使用: $\left\{ \begin{split} &\alpha_i^{*}(1-\xi_i-y_i(\omega^{*}\cdot x_i+b^{*}))=0\\ &-\mu_i^{*}\xi_i^{*}=0\\ &1-\xi_i^{*}-y_i(\omega^{*}\cdot x_i+b^{*})\leq0\\ &\alpha_i^{*}\geq0\\ &-\xi_i^{*}\leq0\\ &\mu_i^{*}\geq0 \end{split} \right.$

我们知道，存在 $\alpha_i>0$ ，满足软间隔的条件。发生作用的是间隔边界上的。有 $\xi_i^{*}=0$ ， $\mu_i^{*}>0$ ， $c-\mu_i^{*}-\alpha_i^{*}=0\Rightarrow \alpha_i^{*}<c$ 。

我们得到新的约束条件为: $s.t.\left\{ \begin{split} &\sum_{i=1}^{N}\alpha_iy_i=0\\ &0\leq\alpha_i\leq c\\ &i=1,2,\cdots,N \end{split} \right.$

我们计算 $b^{*}$ 时曾用到 $y_j$ ，实际上是间隔边界上的点，满足 $\omega\cdot x+b=1$ .

我们有: $\begin{split} &y_j(\omega^{*}\cdot x_j+b^{*}=1\\ \Rightarrow &\omega^{*}\cdot x_j+b^{*}=\frac{1}{y_j}=y_j\\ \Rightarrow &b^{*}=y_j-\omega^{*}\cdot x_j=y_j-\sum_{i=1}^{N}\alpha_i^{*}y_i(x_i\cdot x_j) \end{split}$

[线性支持向量机总结]

输入:训练集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中 $x_i\in R^n\;,\;y_i\in\{+1,-1\}$ 。

输出:分离超平面与分类决策函数

算法:

:给定惩罚参数 $c > 0$ ，构造优化问题 $\begin{split} &\min_{\alpha}\;\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\frac{1}{2}\sum_{i=1}^{N}\alpha_i\\ &s.t.\;\sum_{i=1}^{N}\alpha_iy_i=0\;,\;0\leq\alpha_i\leq c\;,\;i=1,2,\cdots,N \end{split}$

:求解最优化问题，得到最优解
$\alpha^{*}=(\alpha_1^{*},\alpha_2^{*},\cdots,\alpha_N^{*})^T$

:根据 $\alpha^{*}$ 进行计算
$\omega^{*}=\sum_{i=1}^{N}\alpha_i^{*}y_ix_i$

挑出符合 $0<\alpha_i^{*}<c$ 的点 $x_j,y_j)$ 计算:
$b^{*}=y_j-\sum_{i=1}^{N}\alpha_i^{*}y_i(x_i\cdot x_j)$

:得到最终结果

分离超平面: $\omega^{*}\cdot x+b^{*}=0$

决策函数: $f(x)=sign(\omega^{*}\cdot x+b^{*})$

我们最后提一下支持向量的定义:

11.合页损失函数

线性支持向量机学习还有另外一种解释，就是最小化以下目标函数：
$\sum_{i=1}^{N}[1-y_i(\omega\cdot x_i+b)]_{+}+\lambda||\omega||^2$

第一项: $L(y(\omega\cdot x+b))=[1-y(\omega\cdot x+b)]_{+}$
称为合页损失函数。 $[z]_{+}=\left\{ \begin{split} &z\;,\;z>0\\ &0\;,\;z\leq0 \end{split} \right.$

线性支持向量机原始最优化问题:
$\min_{\omega,b,\xi}\;\frac{1}{2}||\omega||^2+c\sum_{i=1}^{N}\xi_i$

$s.t.\left\{ \begin{split} &y_i(\omega \cdot x_i+b)\geq1-\xi_i\;,\;i=1,2,\cdots,N\\ &\xi_i\geq0\;,\;i=1,2,\cdots,N \end{split} \right.$

等价于:
$\min_{\omega,b}\;\sum_{i=1}^{N}[1-y_i(\omega\cdot x_i+b)]_{+}+\lambda||\omega||^2$

我们的推导过程如下:

我们 $\xi_i=[1-y_i(\omega\cdot x_i+b)]_{+}$ ，取合页，考虑距离大于0的情况。
$\begin{split} &\min_{\omega,b}\;\frac{1}{2}||\omega||^2+c\sum_{i=1}^{N}[1-y_i(\omega\cdot x_i+b)]_{+}\\ \Rightarrow^{c>0} &\min_{\omega,b}\;\sum_{i=1}^{N}[1-y_i(\omega\cdot x_i+b)]_{+}+\frac{1}{2c}||\omega||^2\\ \Rightarrow &\min_{\omega,b}\;\sum_{i=1}^{N}[1-y_i(\omega\cdot x_i+b)]_{+}+\lambda||\omega||^2 \end{split}$