机器学习——支持向量机（SVM）

最新推荐文章于 2023-12-29 09:29:10 发布

毕业就要失业了

最新推荐文章于 2023-12-29 09:29:10 发布

阅读量578

点赞数

分类专栏：机器学习文章标签：支持向量机机器学习

本文链接：https://blog.csdn.net/weixin_47779143/article/details/121035465

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1. SVM基本型

请添加图片描述

分离超平面： $\omega^Tx+b=0$
间隔边界： $\omega^Tx+b=±1$
支持向量： $y_i(\omega^Tx_i+b)=1$

原始问题

$\underset{\omega,b}{min} \quad \frac{1}{2}||\omega||^2$ $\quad 1-y_i(\omega^Tx_i+b)≤0, \quad i=1,2,...,n$

变量： $\omega=(\omega_1,\omega_2,...,\omega_d)^T,b$
约束： $n$ 个不等式约束

模型推导：
样本点 $x$ 到超平面 $(\omega,b)$ 的距离 $d=\frac{|\omega^Tx+b|}{||\omega||}$ ，我们可以对 $(\omega,b)$ 进行适当缩放，最终使得在支持向量 $x_0$ 上有 $|\omega^Tx_0+b|=±1$ ，此时支持向量到超平面的距离为 $\frac{1}{||\omega||}$ 。
间隔定义为两个异类支持向量到超平面的距离之和，即 $\frac{2}{||\omega||}$ ，优化目标转化为最大化 $\frac{2}{||\omega||}$ ，也就是最小化 $||\omega||$ 或 $||\omega||^2$ ，此处带有 $\frac{1}{2}$ 的原因是便于后续求导。
约束条件的意义在于所有样本点都需要满足该硬性条件，我愿称之为“硬间隔”。

对偶问题

$\underset{\lambda}{min} \quad \frac{1}{2}\Sigma_{i=1}^n\Sigma_{j=1}^ny_iy_jx_i^Tx_j\lambda_i\lambda_j-\Sigma_{i=1}^n\lambda_i$ $\quad \Sigma_{i=1}^n\lambda_iy_i=0,$ $\lambda_i≥0, \quad i=1,2,...,n$

模型推导：
采用拉格朗日乘子法，定义拉格朗日函数： $L(\omega,b,\alpha)=\frac{1}{2}||\omega||^2+\Sigma_{i=1}^n\lambda_i(1-y_i(\omega^Tx_i+b)), \quad \lambda_i≥0$ 令 $L(\omega,b,\alpha)$ 对 $\omega$ 和 $b$ 的偏导为0可得： $\omega=\Sigma_{i=1}^n\lambda_iy_ix_i$ $0=\Sigma_{i=1}^n\lambda_iy_i$ 将 $\omega$ 代入拉格朗日函数中即得对偶模型。

KKT条件

原始问题为极大极小问题（推导见下），即： $\underset{\omega,b}{min}\underset{\lambda≥0}{max}L(\omega,b,\alpha)$ ；
而对偶问题为极小极大问题（由定义），即： $\underset{\lambda≥0}{max} \underset{\omega,b}{min}L(\omega,b,\alpha)$ 。

原问题为凸优化问题，当 $f (x), g (x)$ 为凸函数，且可行域中至少有一点使不等式约束严格成立时，强对偶性成立，对偶问题等价于原问题。即需要满足 $K K T$ 条件： $\begin{cases} \omega=\Sigma_{i=1}^n\lambda_iy_ix_i, \quad 0=\Sigma_{i=1}^n\lambda_iy_i\\ \lambda_i≥0\\ \lambda_i[1-y_i(\omega^Tx_i+b)]=0\\ 1-y_i(\omega^Tx_i+b)≤0\\ \end{cases}$

KKT条件推导如下：

当约束不起作用时，极小值在可行域内某处取得，而不在边界处取得，故此时 $g(x^*)<0$ ， $g (x)$ 不起作用，故 $\lambda=0$ ，由极小值点梯度为零知 $\nabla_xf(x^*)=0$ 。
当约束起作用时，极小值在可行域边界处取得，故此时 $g(x^*)=0$ ，易知 $\lambda>0$ ，故由极小值点梯度为零知 $-\nabla_xf(x^*)=\lambda\nabla_xf(x^*)$ 。

于是我们得到KKT条件，即 $x^*$ 是局部最小的等价条件为，存在唯一的 $\lambda^*$ ，使得： $\begin{cases} \nabla_xL(x^*,\lambda^*)=0\\ \lambda^*≥0\\ \lambda^*g(x^*)=0\\ g(x*)≤0 \end{cases}$

支持向量的探讨

假设已知支持向量 $x_s,y_s)$ ，易知 $y_s(\omega^Tx_s+b)-1=0$ ，又已知 $\omega=\Sigma_{i=1}^n\lambda_iy_ix_i$ ，故 $b=y_s-\omega^Tx_s=y_s-\Sigma_{i=1}^n\lambda_iy_ix_i^Tx_s$ 。

由上述推导知：当 $\lambda^*=0$ 时， $g(x^*)<0$ ；当 $\lambda^*>0$ 时， $g(x^*)=0$ 。也就是说， $\lambda^*=0$ 和 $g(x^*)=0$ 二者必居其一。
由KKT条件知： $\lambda_i[1-y_i(\omega^Tx_i+b)]=0$ ，因此满足 $\lambda_i=0$ 的样本点不出现在拉格朗日函数中，不影响模型求解；满足 $\lambda_i>0$ 的样本点必定满足 $y_i(\omega^Tx_i+b)=1$ ，即一定是支持向量。
因此，只有支持向量对于模型求解才是有意义的。

求解分类平面

已知 $\omega=\Sigma_{i=1}^n\lambda_iy_ix_i$ ， $b=y_s-\omega^Tx_s=y_s-\Sigma_{i=1}^n\lambda_iy_ix_i^Tx_s$ ，欲求 $f(x)=\omega^Tx+b$ 。
只需根据对偶模型求解各个拉格朗日乘子 $\lambda_i$ ，即代入 $x_i,y_i$ 计算目标函数并进行求解即可： $\underset{\lambda}{min} \quad \frac{1}{2}\Sigma_{i=1}^n\Sigma_{j=1}^ny_iy_jx_i^Tx_j\lambda_i\lambda_j-\Sigma_{i=1}^n\lambda_i$ $\quad \Sigma_{i=1}^n\lambda_iy_i=0,$ $\lambda_i≥0, \quad i=1,2,...,n$

2. 软间隔SVM

请添加图片描述

支持向量：可以在间隔边界上、间隔边界间，甚至可以是错分类点。

软间隔SVM

$\underset{\omega,b,ξ_i}{min} \quad \frac{1}{2}||\omega||^2+C\Sigma_{i=1}^nξ_i$ $\quad y_i(\omega^Tx_i+b)≥1-ξ_i$ $ξ_i≥0, \quad i=1,2,...,n$ 其中， $ξ_i$ 是松弛变量。

变量： $\omega,b,ξ_i$
约束： $2 n$ 个不等式约束

对偶问题

$\underset{\lambda}{min} \quad \frac{1}{2}\Sigma_{i=1}^n\Sigma_{j=1}^ny_iy_jx_i^Tx_j\lambda_i\lambda_j-\Sigma_{i=1}^n\lambda_i$ $\quad \Sigma_{i=1}^n\alpha_iy_i=0,$ $0≤\lambda_i≤C, \quad i=1,2,...,n$

变量： $\lambda=(\lambda_1,\lambda_2,...,\lambda_n)^T$
约束：1个等式约束， $n$ 个不等式约束

因此可以看出，软间隔SVM与SVM基本型的目标函数一致，约束条件仅在拉格朗日乘子的取值范围处有区别。当 $C \to + \infty$ 时，软间隔SVM退化为SVM基本型。

模型推导：
采用拉格朗日乘子法，定义拉格朗日函数： $L(\omega,b,\alpha,ξ,μ)=\frac{1}{2}||\omega||^2+C\Sigma_{i=1}^nξ_i+\Sigma_{i=1}^n\lambda_i(1-ξ_i-y_i(\omega^Tx_i+b))-\Sigma_{i=1}^nμ_iξ_i, \quad \lambda_i≥0$ 令 $L(\omega,b,\alpha)$ 对 $\omega$ 和 $b$ 的偏导为0可得： $\omega=\Sigma_{i=1}^n\lambda_iy_ix_i$ $0=\Sigma_{i=1}^n\lambda_iy_i$ $C=\lambda_i+μ_i$ 将 $\omega$ 代入拉格朗日函数中即得对偶模型。

KKT条件

同理，要使原始问题与对偶问题等价，需要满足KKT条件： $\begin{cases} \omega=\Sigma_{i=1}^n\lambda_iy_ix_i, \quad 0=\Sigma_{i=1}^n\lambda_iy_i, \quad C=\lambda_i+μ_i\\ \lambda_i≥0, \quad μ_i≥0\\ \lambda_i(1-ξ_i-y_i(\omega^Tx_i+b))=0, \quad μ_iξ_i=0\\ 1-y_i(\omega^Tx_i+b)≤0, \quad -ξ_i≤0\\ \end{cases}$
可以简化表示为（去掉参数 $μ$ ）： $\begin{cases} \omega=\Sigma_{i=1}^n\lambda_iy_ix_i, \quad 0=\Sigma_{i=1}^n\lambda_iy_i\\ 0≤\lambda_i≤C\\ \lambda_i(1-ξ_i-y_i(\omega^Tx_i+b))=0, \quad (C-\lambda_i)ξ_i=0\\ 1-y_i(\omega^Tx_i+b)≤0, \quad -ξ_i≤0\\ \end{cases}$

支持向量的探讨

同理，满足 $\lambda_i>0$ 的样本点都是支持向量，支持向量满足 $y_i(\omega^Tx_i+b)=1-ξ_i$ ：

$\lambda_i<C$ 时，由 $C=\lambda_i+μ_i$ 知 $μ_i>0$ ，再由 $μ_iξ_i=0$ 知 $ξ_i=0$ ，因此 $x_i$ 落在间隔边界上；
$\lambda_i=C$ 时，若 $0<ξ_i<1$ ，则 $x_i$ 落在间隔边界和超平面之间；
$\lambda_i=C$ 时，若 $ξ_i=1$ ，则 $x_i$ 落在超平面上；
$\lambda_i=C$ 时，若 $ξ_i>1$ ，则 $x_i$ 落在超平面另一侧。

优化目标

由软间隔SVM的约束条件： $y_i(\omega^Tx_i+b)≥1-ξ_i, \quad ξ_i≥0, \quad i=1,2,...,n$ ，容易得到： $ξ_i≥max(0,1-y_i(\omega^Tx_i+b))$ 。
因此软间隔SVM的优化目标为： $\underset{\omega,b}{min} \quad \frac{1}{2}||\omega||^2+C\Sigma_{i=1}^nmax(0,1-y_i(\omega^Tx_i+b))$ 而hinge损失函数为： $loss_{hinge}(z)=max(0,1-z)$ ，因此软间隔SVM是最小化hinge损失函数的正则化模型。
其中， $\frac{1}{2}||\omega||^2$ 是正则项（提供模型先验信息，防止过拟合）， $\Sigma_{i=1}^nmax(0,1-y_i(\omega^Tx_i+b))$ 是误差项（衡量预测值与真实值的误差）， $C$ 是正则参数（用于平衡其余两项的大小）。

监督学习任务模型： $\underset{f}{min} \quad \Omega(f)+C\Sigma_{i=1}^nloss(f(x_i),y_i)$ 其中， $\Omega(f)$ 称为“结构风险”（正则项）， $\Sigma_{i=1}^nloss(f(x_i),y_i)$ 称为“经验风险”（误差项）， $C$ 用于对二者进行折中（正则参数）。
$L_p$ 范数是常用的正则化项： $L_0$ 范数 $||\omega||_0$ 代表 $\omega$ 中非零元的个数； $L_1$ 范数 $||\omega||_1$ 代表各元素绝对值之和 $\Sigma_i|\omega_i|$ ； $L_2$ 范数 $||\omega||_2$ 代表各元素平方和开根号 $\sqrt{\Sigma_i\omega_i^2}$ 。

模型求解

求出内积矩阵 $K$ ，其中 $K_{ij}=x_i^Tx_j$ ；
应用SMO算法求解对偶模型。

3. 核化SVM

基本思想：对于非线性可分的数据，尝试找到一个非线性映射𝝓，使得数据在新的空间（通常为高维空间）是线性可分的，然后再使用线性SVM进行分类。

核化SVM

$\underset{\omega,b}{min} \quad \frac{1}{2}||\omega||^2$ $\quad 1-y_i(\omega^Tϕ(x_i)+b)≤0, \quad i=1,2,...,n$

对偶问题

$\underset{\lambda}{min} \quad \frac{1}{2}\Sigma_{i=1}^n\Sigma_{j=1}^ny_iy_jϕ(x_i)^Tϕ(x_j)\lambda_i\lambda_j-\Sigma_{i=1}^n\lambda_i$ $\quad \Sigma_{i=1}^n\lambda_iy_i=0,$ $\lambda_i≥0, \quad i=1,2,...,n$ 引入核函数 $κ(x_i,x_j)=ϕ(x_i)^Tϕ(x_j)$ ，将 $ϕ$ 隐式表示出来，并使内积计算变得容易。
请添加图片描述

对偶问题转化为： $\underset{\lambda}{min} \quad \frac{1}{2}\Sigma_{i=1}^n\Sigma_{j=1}^ny_iy_jκ(x_i,x_j)\lambda_i\lambda_j-\Sigma_{i=1}^n\lambda_i$ $\quad \Sigma_{i=1}^n\lambda_iy_i=0,$ $\lambda_i≥0, \quad i=1,2,...,n$ 当然，其中 $κ(x_i,x_j)$ 等价于 $K_{ij}$ 。
分离超平面为： $f(x)=\omega^Tϕ(x)+b=\Sigma_{i=1}^n\lambda_iy_iϕ(x_i)ϕ(x)+b=\Sigma_{i=1}^n\lambda_iy_iκ(x_,x_i)+b$

模型求解

选取合适的核函数，求出核矩阵 $K$ ；
应用SMO算法求解对偶模型。

4. SMO算法

SMO算法的基础：坐标上升（下降）算法
欲求解以下优化问题： $\underset{\lambda}{max} \quad W(\lambda_1,\lambda_2,...,\lambda_n),\quad \lambda=(\lambda_1,\lambda_2,...,\lambda_n)^T$ 坐标上升（下降）算法每次迭代只调整一个变量 $\lambda_i$ 的值，其他变量在该次迭代中固定不变。虽然对一个参数的一次优化不可能保证其结果就是所优化的拉格朗日乘子的最终结果，但会使目标函数向极小值迈进一步，这样对所有的乘子做最小优化，直到所有满足KKT条件时，目标函数达到最小。

SMO算法基本思想：每次选定两个变量 $\lambda_i$ 和 $\lambda_j$ ，并固定其他参数。
在参数初始化后，不断执行以下两个步骤直至收敛：

选取一对需更新的变量 $\lambda_i$ 和 $\lambda_j$ ；
固定 $\lambda_i$ 和 $\lambda_j$ 以外的参数以求解对偶问题，获得更新后的 $\lambda_i$ 和 $\lambda_j$ 。

$\lambda_i$ 的选取准则：选取违背KKT条件程度最大的变量（把害群之马纠正回来）；
$\lambda_j$ 的选取准则：选取使目标函数值增长最快的变量（缩短训练时间）；
SMO启发式选取变量：选取对应样本点之间间隔最大的两个变量。

欲求解以下问题： $\underset{\lambda}{max} \quad \Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i=1}^n\Sigma_{j=1}^ny_iy_jx_i^Tx_j\lambda_i\lambda_j$ $\quad \Sigma_{i=1}^n\alpha_iy_i=0,$ $0≤\lambda_i≤C, \quad i=1,2,...,n$ 固定其他变量，仅考虑 $\lambda_i$ 和 $\lambda_j$ ： $\underset{\lambda_i,\lambda_j}{min} \quad \frac{1}{2}(x_i^Tx_i)\lambda_i^2+\frac{1}{2}(x_j^Tx_j)\lambda_j^2+(y_iy_jx_i^Tx_j)\lambda_i\lambda_j-\lambda_i-\lambda_j+(\Sigma_{k≠i,j}^ny_iy_kx_i^Tx_k\lambda_k)\lambda_i+(\Sigma_{k≠i,j}^ny_jy_kx_j^Tx_k\lambda_k)\lambda_j$ $\quad y_i\lambda_i+y_j\lambda_j=-\Sigma_{k≠i,j}^ny_k\lambda_k$ $0≤\lambda_i,\lambda_j≤C, \quad i=1,2,...,n$ 令 $K_{ii}=x_i^Tx_i,K_{jj}=(x_j^Tx_j),c_{ij}=y_iy_jx_i^Tx_j,c_i=\Sigma_{k≠i,j}^ny_iy_kx_i^Tx_k\lambda_k-1,c_j=\Sigma_{k≠i,j}^ny_jy_kx_j^Tx_k\lambda_k-1,c=-\Sigma_{k≠i,j}^ny_k\lambda_k$ ，简化为： $\underset{\lambda_i,\lambda_j}{min} \quad \frac{1}{2}K_{ii}\lambda_i^2+\frac{1}{2}K_{jj}\lambda_j^2+c_{ij}\lambda_i\lambda_j+c_i\lambda_i+c_j\lambda_j$ $\quad y_i\lambda_i+y_j\lambda_j=c$ $0≤\lambda_i,\lambda_j≤C, \quad i=1,2,...,n$ 由 $y_i\lambda_i+y_j\lambda_j=c$ 知 $\lambda_j=y_j(c-y_i\lambda_i)$ ，代入上式得： $\underset{\lambda_i}{min} \quad \frac{1}{2}K_{ii}\lambda_i^2+\frac{1}{2}K_{jj}(c-y_i\lambda_i)^2+c_{ij}\lambda_iy_j(c-y_i\lambda_i)+c_i\lambda_i+c_jy_j(c-y_i\lambda_i)$ $\quad y_i\lambda_i+y_j\lambda_j=c$ $0≤\lambda_i≤C, \quad i=1,2,...,n$ 至此，对偶问题被转化为简单的单变量二次优化问题。

注意：验证 $\lambda_j=y_j(c-y_i\lambda_i)$ 是否在区间 $[0, C]$ 中，否则最小值在边界处取得。

5. 支持向量回归（SVR）

请添加图片描述

所有点的真实值 $y_i$ 都落在 $f(x_i)$ 的 $\epsilon$ 邻域内。

SVR基本型： $\underset{\omega,b}{min} \quad \frac{1}{2}||\omega||^2+C\Sigma_{i=1}^nloss_\epsilon(y_i-(\omega^Tx_i+b))$ $\quad |y_i-(\omega^Tx_i+b)|≤\epsilon, \quad i=1,2,...,n$ 其中， $loss_\epsilon$ 是 $\epsilon$ -不敏感损失函数： $loss_\epsilon(z)=\begin{cases} 0, \quad \quad \quad if \quad |z|≤\epsilon;\\ |z|-\epsilon, \quad otherwise.\\ \end{cases}$ 引入松弛变量 $\xi_i$ 和 $\eta_i$ ，得到软间隔SVR： $\underset{\omega,b,\xi,\eta}{min} \quad \frac{1}{2}||\omega||^2+C\Sigma_{i=1}^n(\xi_i+\eta_i)$ $\quad y_i-(\omega^Tx_i+b)≤\epsilon+\xi_i, \quad i=1,2,...,n$ $y_i-(\omega^Tx_i+b)≤\epsilon+\eta_i, \quad i=1,2,...,n$ $\xi_i,\eta_i≥0, \quad i=1,2,...,n$

欢迎各位批评探讨！！评论区交流！！

毕业就要失业了

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习——支持向量机（SVM）

SVM基本型与对偶问题优化目标：最大化分类间隔(margin)(margin)(margin)原始模型：minω,b12∣∣ω∣∣2\underset{\omega,b}{min} \quad \frac{1}{2}||\omega||^2ω,bmin21∣∣ω∣∣2s.t.yi(ωTxi+b)≥1,i=1,2,...,ms.t. \quad y_i(\omega^Tx_i+b)≥1, \quad i=1,2,...,ms.t.yi(ωTxi+b)≥1,i=1,2,...,m变量：ω=(.
复制链接

扫一扫