机器学习——支持向量机（SVM）

最新推荐文章于 2024-06-11 18:19:31 发布

平川落山海

最新推荐文章于 2024-06-11 18:19:31 发布

阅读量1.2k

点赞数 20

文章标签：机器学习支持向量机人工智能

本文链接：https://blog.csdn.net/weixin_73975302/article/details/139596767

版权

一、简介

支持向量机（Support Vector Machine，SVM）是一种基于统计学习理论的机器学习算法，它是由Vapnik和Cortes于1995年提出的。SVM是一种二类分类模型，它的基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略就是间隔最大化，同时它还能够应用于回归问题（SVR，Support Vector Regression）。

二、支持向量机（SVM）

2.1 概念

支持向量：在训练数据集上，那些位于决策边界附近的点被称为支持向量，因为它们是确定最优超平面的关键点。
超平面：在特征空间中，超平面是一个能够将数据集划分为两个不同类别的最大间隔平面。
间隔：间隔是指从超平面到最近的属于某一类的数据点的距离。SVM的目标是找到一个能够最大化这个间隔的超平面。
软间隔：由于真实世界中的数据往往存在噪声或重叠，硬间隔SVM可能无法找到合适的超平面。软间隔SVM允许一些数据点违反间隔约束，从而更好地适应复杂的数据分布。
核函数：当数据不是线性可分时，SVM通过使用核技巧将数据映射到高维空间，在高维空间中寻找最优超平面。常见的核函数包括线性核、多项式核、径向基函数（RBF）核和sigmoid核。
正则化参数C：在软间隔SVM中，参数C用于控制误分类的惩罚程度。C值越大，模型对误分类的惩罚越重，可能会导致过拟合；C值越小，模型的泛化能力更强，但可能会欠拟合。

2.2 四种分隔情况

线性可分（Linearly Separable）：在这种情况下，数据集可以被一个线性超平面完美地分隔。也就是说，存在一个超平面，它能够将两类数据点完全分开，没有任何一个数据点穿过超平面。线性可分问题可以通过硬间隔最大化来解决，此时的SVM模型被称为硬间隔支持向量机。
线性不可分（Linearly Inseparable）：当数据集由于噪声或重叠而不能被任何线性超平面完美分隔时，我们称之为线性不可分。在这种情况下，我们需要引入松弛变量（slack variables）来允许一些数据点违反间隔约束。这时的SVM模型被称为软间隔支持向量机，它通过软间隔最大化来解决分类问题。
非线性可分（Non-linearly Separable）：对于非线性问题，数据集在原始特征空间中无法通过任何线性超平面分隔。为了处理这种情况，SVM使用核技巧将数据映射到一个更高维的空间，在这个高维空间中数据可能是线性可分的。常用的核函数包括多项式核、径向基函数（RBF）核和sigmoid核。通过在高维空间中应用线性SVM方法，我们可以找到一个能够分隔数据的非线性超平面。
多分类问题（Multi-class Classification）： SVM最初是为二分类问题设计的。对于多分类问题，我们需要将SVM扩展到能够处理多个类别。这可以通过一对多（one-vs-rest）策略、一对一（one-vs-one）策略或者基于决策树的层次化SVM（Hierarchical SVM）等方法来实现。在多分类问题中，我们可能需要找到多个超平面，每个超平面分隔一对类别。

2.3 相关计算

超平面方程

在SVM中，超平面是通过解优化问题得到的，其方程可以表示为：

$\mathbf{w}^T \mathbf{x} + b = 0$

其中，𝑤w 是超平面的法向量，决定了超平面的方向； $b$ 是截距，决定了超平面与原点的距离。对于任何点 $x$ ，如果 $\mathbf{w}^T \mathbf{x} + b > 0$ ，则该点被分类为正类；如果 $\mathbf{w}^T \mathbf{x} + b < 0$ ，则被分类为负类。

间隔

SVM中的间隔是指从超平面到最近的数据点的距离。在硬间隔SVM中，这个距离是最大的，而在软间隔SVM中，可能存在一些数据点违反间隔约束。

硬间隔：对于硬间隔SVM，间隔由支持向量到超平面的距离决定，可以表示为：

$\frac{| \mathbf{w}^T \mathbf{x}_i + b |}{\| \mathbf{w} \|}$

其中， $xi$ 是支持向量。硬间隔SVM的目标是最大化这个间隔，即最大化 $\frac{2}{w}$ 。
软间隔：在软间隔SVM中，考虑到松弛变量 $\xi i$ ，间隔的计算稍微复杂一些。优化问题变为：

$\min_{\mathbf{w}, b, \xi} \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i$

$\text{subject to} \quad y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i\xi_i \geq 0 \quad \text{for all } i$

这里， $c$ 是正则化参数，控制着间隔大小和误分类之间的权衡。