【机器学习】SVM原理公式推导和常见问题（1）

最新推荐文章于 2024-07-28 14:43:36 发布

ZOEMMM

最新推荐文章于 2024-07-28 14:43:36 发布

阅读量2k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/zeo_m/article/details/81586654

版权

本文详细介绍了支持向量机（SVM）的基本概念，包括间隔的定义、线性可分SVM的学习思想，以及如何利用拉格朗日对偶性解决约束优化问题。通过构造拉格朗日函数，探讨了SVM的对偶问题和KKT条件，为理解SVM的学习算法提供了基础。

摘要由CSDN通过智能技术生成

什么是SVM

是一种分类模型，求一个能使两类点分布在超平面两侧且间隔最大化的平面。实际中，分为线性可分SVM，线性SVM和非线性SVM。

什么是间隔

那么如何定义“间隔”？

假设一个数据集线性可分， $x\in R^n, y\in \{+1,-1\}$ ，超平面 $(\omega,b)$ 将点完全非离到平面两侧。点 $(x,y)$ 到平面 $(\omega ,b)$ 的距离为 $|\omega \cdot x+b|$ ，若点到平面的距离越远说明分类越可靠，反之越不可靠。若 $y(\omega \cdot x+b)$ 为正，则点被超平面正确分类，否则为负。所以 $y(\omega \cdot x+b)$ 可以代表分类的正确性和分类的确信度。

所以定义，数据集到平面的函数间隔为，离平面最近的点（即支持向量）到平面的函数间隔：

γ^= min γ i^= min y i (ω \cdot x i + b)

$\hat{\gamma} = \min \hat{\gamma_i}=\min y_i(\omega \cdot x_i+b)$

但，由于同比例放大 $\omega和b$ ，没有改变平面但是函数间隔放大。所以定义几何间隔：

γ = min γ i = min γ i ^ | | ω | |

$\gamma=\min \gamma_i = \min \frac{\hat{\gamma_i}}{||\omega||}$

线性可分SVM的学习思想

有了上面几何间隔的定义，则支持向量机学习的基本思想是，求解能够正确划分训练数据集并且使几何间隔最大化的分离超平面，表示为：

max ω, b γ

$\max_{\omega,b} \gamma$

s . t . y i (ω | | ω | | \cdot x i + b | | ω | |) \geq γ, i = 1, 2, . . ., N

$s.t. y_i(\frac{\omega}{||\omega||}\cdot x_i + \frac{b}{||\omega||}) \geq \gamma,i=1,2,...,N$
为了方便求解，做如下变换。首先，将

γ=γ^||ω|| γ = γ ^ | | ω | | $\gamma = \frac{ \hat{ \gamma} }{||\omega||}$ 代入原式。然后，因为函数间隔的大小变化，可以看做

(ω,b) ( ω , b ) $(\omega,b)$ 的等比例变换，它的大小不影响超平面，所以可以令

γ^=1 γ ^ = 1 $\hat{\gamma}=1$ ，即目标函数变换为

maxω,b1||ω|| max ω , b 1 | | ω | | $\max_{\omega, b} \frac{1}{||\omega||}$ ，同时约束条件也

s.t.yi(ω⋅xi+b)≥1,i=1,2,...,N s . t . y i ( ω ⋅ x i + b ) ≥ 1 , i = 1 , 2 , . . . , N $s.t. y_i(\omega \cdot x_i+b) \geq 1,i=1,2,...,N$

最后，将目标函数取倒数并取平方，将原最大化化问题转化为凸最小化问题，

min 1 2 | | ω | | 2

$\min \frac{1}{2}||\omega||^2$

s . t . y i (ω \cdot x i + b) - 1 \geq 0, i = 1, 2, . . ., N

$s.t. y_i(\omega \cdot x_i+b) -1\geq 0,i=1,2,...,N$

系数 $\frac{1}{2}$ 也是为了后面求导时简化计算，这里先不解释。做这些变化的原因，是为了转化为凸优化问题，这样的好处是，凸优化问题的解如果存在一定是全局最优解。而对于线性可分数据集，一定存在超平面使点分隔在平面两侧，即解非空，所以上式问题解存在且唯一。

存在性证明：因为数据集线性可分多以一定存在可行解。有目标函数是凸函数有下界，所以一定存在最优解。有训练集既有正实例又有负实例，所以 $(\omega,b)=(0,b)$ 不是最优解，所以存在性得证。唯一性证明：较复杂，假设存在两个最优解 $(\omega_1^*,b^*)$ 和 $(\omega_2^*,b)$ ，想办法证明 $\omega_1^*=\omega_2^*$ 。同理，设两个最优解 $(\omega^*,b_1^*)$ 和 $(\omega^*,b_2^*)$ ，证明 $b_1^*=b_2^*$ 。证明过程略。