第十五节-支持向量机原理推导（第一章: 机器学习算法精进及其案例应用(课程笔记) ）

本文链接：https://blog.csdn.net/zz3035786953/article/details/132675962

15.1-支持向量机原理推导

支持向量机（Support Vector Machine，SVM）是一种强大的监督学习算法，主要用于二分类问题，但也可以扩展到多分类任务。SVM的原理基于最大化分类间隔的思想，通过找到一个最优的超平面来实现分类。

以下是支持向量机的原理推导：

假设我们有一个训练数据集，其中包含N个样本点：{(x1, y1), (x2, y2), ..., (xi, yi), ..., (xN, yN)}，其中xi表示第i个样本的特征向量，yi表示对应的类别标签（+1或-1，用于二分类问题）。

寻找一个超平面：我们的目标是找到一个超平面，它可以将数据集中的两类点（正类和负类）分开，并且最大化分类间隔。这个超平面可以表示为：w·x + b = 0，其中w是法向量（垂直于超平面的向量），b是截距。
定义分类间隔：分类间隔是指超平面到最近的训练数据点的距离。我们需要最大化分类间隔，这等于最小化法向量w的模长||w||。
线性可分情况：在理想情况下，训练数据是线性可分的，即存在一个超平面可以完全正确地将正类和负类样本分开。这时，我们的优化目标可以表达为一个凸二次规划问题（Quadratic Programming），具体为：

最小化：(1/2) * ||w||^2 约束条件：yi * (w·xi + b) >= 1，对所有i=1到N

这里，yi表示第i个样本的类别标签，要求对所有训练样本都满足函数间隔（w·xi + b）与类别标签yi的乘积大于等于1。
求解凸二次规划问题：通过求解上述凸二次规划问题，我们可以得到最优的法向量w和截距b。这些参数定义了一个最大分类间隔的超平面，即SVM模型。
非线性情况：在实际问题中，数据通常不是线性可分的。为了处理非线性情况，我们可以使用核函数（Kernel Function）。核函数可以将原始特征映射到一个高维空间，使得数据在新空间中变得线性可分。常用的核函数包括线性核、多项式核和径向基函数（RBF）核。

总结一下，支持向量机的原理推导包括找到一个最大分类间隔的超平面，通过求解凸二次规划问题来确定该超平面的参数。对于非线性问题，我们可以使用核函数来处理。SVM是一个强大的分类算法，适用于各种监督学习问题。

15.2-距离与数据定义

支持向量机（SVM）中距离的计算主要涉及到两个重要的距离：点到超平面的距离以及两个超平面之间的间隔距离。下面将分别介绍这两种距离的计算，并使用LaTeX格式的数学公式表示。

点到超平面的距离：

假设我们有一个超平面表示为 $w \cdot x + b = 0$ ，其中 $w$ 是法向量， $x$ 是数据点， $b$ 是截距。要计算点 $x_0$ 到超平面的距离，可以使用以下公式：

$\text{distance(x, b, w)} = \frac{{|w \cdot x_0 + b|}}{{||w||}}$

其中，

$w \cdot x_0$ 表示点 $x_0$ 到超平面的有向距离。
$||w||$ 表示法向量 $w$ 的模长。

两个超平面之间的间隔距离：

SVM的主要目标是最大化两个超平面之间的间隔距离，这个间隔距离又称为“分类间隔”。对于线性可分的SVM问题，分类间隔的计算公式如下：

$\text{margin} = \frac{2}{{||w||}}$

其中，

$w$ 是最优超平面的法向量。
$||w||$ 是法向量 $w$ 的模长。

分类间隔的最大化是通过解一个凸二次规划问题来实现的，其优化目标是最小化 $w$ 的模长的平方，同时满足一系列约束条件，这些约束条件确保每个训练样本点都位于超平面的两侧，即 $y_i \cdot (w \cdot x_i + b) \geq 1$ ，其中 $y_i$ 是样本点的类别标签。

这些距离的计算和最优化问题的求解是支持向量机的核心原理，通过最大化分类间隔，SVM可以构建一个高效的分类器。

支持向量机（SVM）中的数据标签定义通常使用-1和+1来表示两个不同的类别。这些标签在SVM的优化问题中用于定义约束条件。以下是标签的数学表示：

负类别标签（Negative Class Label）：通常表示为-1。
正类别标签（Positive Class Label）：通常表示为+1。

在SVM的优化问题中，标签用于确保每个训练样本点都位于超平面的正确一侧。具体来说，对于每个训练样本点 $(x_i, y_i)$，其中 $x_i$ 是特征向量，$y_i$ 是类别标签，我们希望满足以下约束条件：

$y_i \cdot (w \cdot x_i + b) \geq 1$

其中，

$y_i$ 是样本点 $(x_i, y_i)$ 的类别标签，取值为-1或+1。
$w$ 是超平面的法向量。
$b$ 是超平面的截距。

这些约束条件确保了每个样本点都正确分类，并且位于超平面的正确一侧。最大化这些约束条件下的分类间隔是SVM的核心优化目标。

15.3-目标函数推导

15.4-拉格朗日乘子法求解

支持向量机（Support Vector Machine，SVM）的目标函数是一个凸二次规划问题，通过放缩变化和优化目标来求解最优超平面的参数。下面将介绍SVM的目标函数以及如何进行放缩变化和优化。

SVM的目标函数通常定义如下：

最小化目标函数：

$\min_{w, b} \frac{1}{2} ||w||^2$

同时满足约束条件：

$y_i \cdot (w \cdot x_i + b) \geq 1 \quad \text{for all} \quad i = 1, 2, \ldots, N$

其中，

$w$ 是超平面的法向量。
$b$ 是超平面的截距。
$x_i$ 是训练样本的特征向量。
$y_i$ 是样本的类别标签，取值为-1或+1。
$N$ 是训练样本的数量。

这个目标函数的目的是最小化法向量 $w$ 的模长的平方，同时确保每个训练样本点都满足约束条件，即位于超平面的正确一侧。

为了求解这个优化问题，可以进行放缩变化，将目标函数改写成等效的形式。首先，引入拉格朗日乘子 $\alpha_i \geq 0$ ，为每个约束条件引入一个乘子，然后构建拉格朗日函数：

$L(w, b, \alpha) = \frac{1}{2} ||w||^2 - \sum_{i=1}^{N} \alpha_i \left( y_i \cdot (w \cdot x_i + b) - 1 \right)$

现在，我们的目标是最大化拉格朗日函数关于 $\alpha$ 的对偶问题：

$\max_{\alpha} \min_{w, b} L(w, b, \alpha)$

通过对 $\alpha$ 进行最大化，我们可以找到最优的 $\alpha$ 值，然后使用这些值来计算最优的 $w$ 和 $b$ 。

优化目标：

最大化对偶问题中的 $\alpha$ ，以找到最优的超平面。
使用最优的 $\alpha$ 来计算 $w$ 和 $b$ ，这些参数定义了最大分类间隔的超平面。

最终，通过解决对偶问题，可以找到最优的超平面，实现支持向量机的分类任务。这个过程中涉及了拉格朗日乘子和凸二次规划的技术，确保了SVM的有效性和鲁棒性。

15.5-化简最终目标函数

构建拉格朗日函数：我们从SVM的原始优化问题出发，即要最小化目标函数：

$\min_{w, b} \frac{1}{2} ||w||^2$

同时满足约束条件：

$y_i \cdot (w \cdot x_i + b) \geq 1 \quad \text{for all} \quad i = 1, 2, \ldots, N$

为了引入拉格朗日乘子，我们对每个约束条件引入一个非负乘子 $\alpha_i \geq 0$ ，并构建拉格朗日函数如下：

$L(w, b, \alpha) = \frac{1}{2} ||w||^2 - \sum_{i=1}^{N} \alpha_i \left( y_i \cdot (w \cdot x_i + b) - 1 \right)$
求解拉格朗日函数的对偶问题：对拉格朗日函数进行最小化关于 $w$ 和 $b$ 的操作，我们得到SVM的对偶问题：

$\max_{\alpha} \min_{w, b} L(w, b, \alpha) = \max_{\alpha} \left( \sum_{i=1}^{N} \alpha_i - \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) \right)$

在这个对偶问题中，我们最大化关于拉格朗日乘子 $\alpha$ 的目标函数，同时满足 $\alpha_i \geq 0$ 和 $\sum_{i=1}^{N} \alpha_i y_i = 0$ 。

其中，

$\alpha$ 是拉格朗日乘子。
$w$ 是超平面的法向量。
$w$ 是超平面的截距。
$x_i$ 是训练样本的特征向量。
$y_i$ 是样本的类别标签，取值为-1或+1。
$N$ 是训练样本的数量。

要化简这个对偶目标函数，我们需要首先找到 $\alpha$ 的最优解，然后使用这些最优的 $\alpha$ 值来计算最优的 $w$ 和 $b$ 。

最优化 $\alpha$ ：
- 最大化 $\alpha$ 的对偶问题可以通过优化库或数学优化技术来解决。
- 一旦获得最优的 $\alpha$ 值，通常通过一个阈值来判断哪些样本是支持向量（对应于 $\alpha_i$ 大于零的样本）。
计算最优的 $w$ 和 $b$ ：
- 使用最优的 $\alpha$ 值来计算 $w$ ，具体公式为： $w = \sum_{i=1}^{N} \alpha_i y_i x_i$
- 找到任意一个支持向量的索引 $i$ ，然后使用 $w \cdot x_i + b = y_i$ 来计算最优的 $b$ 。

最终，得到的最优 $w$ 和 $b$ 定义了最大分类间隔的超平面，用于进行支持向量机的分类任务。

总之，SVM的最终目标函数通过拉格朗日乘子法进行化简，通过优化 $\alpha$ 值找到最优的超平面参数 $\alpha$ 和 $b$ ，从而实现了分类任务。这个过程确保了SVM的高效性和可行性。

在支持向量机（SVM）中，对偶问题的目标是最大化拉格朗日函数关于拉格朗日乘子 $\alpha$ 的值。这个过程可以通过将极大值问题转化为极小值问题来实现。具体步骤如下：

原始对偶问题（最大化 $\alpha$）：我们的原始对偶问题是：

$\max_{\alpha} \left( \sum_{i=1}^{N} \alpha_i - \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) \right)$
转化为极小值问题：为了将问题转化为极小值问题，我们需要对上述表达式取负号并添加一个负号，从而将最大化问题转化为最小化问题。同时，我们还需要引入一个拉格朗日乘子的约束条件，确保 $\alpha_i \geq 0$ 。这样，我们得到了等价的最小化问题：

$\min_{\alpha} \left( \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) - \sum_{i=1}^{N} \alpha_i \right)$

且满足约束条件：

$\alpha_i \geq 0 \quad \text{for all} \quad i = 1, 2, \ldots, N$
使用优化算法求解：最小化问题的目标是找到最小值的 $\alpha$ 值。通常，可以使用凸优化算法（如SMO算法、梯度下降等）来求解这个最小化问题。这些算法将会找到最优的 $\alpha$ 值，以及随后的最优超平面参数 $w$ 和 $b$ 。
计算最优的 $w$ 和 $b$ ：一旦获得最优的 $\alpha$ 值，可以使用它们来计算最优的超平面参数 $w$ 和 $b$ ，如之前所述。

总结一下，支持向量机的求解过程涉及将原始对偶问题转化为极小值问题，然后使用优化算法来找到最小值的 $\alpha$ 值。最后，使用这些 $\alpha$ 值计算最优的超平面参数 $w$ 和 $b$ ，从而得到最优的超平面。这个过程确保了SVM的高效性和准确性。

15.6-求解决策方程

支持向量机（Support Vector Machine，SVM）是一种强大的监督学习算法，其核心思想是通过找到支持向量来构建一个最优的超平面，实现数据的分类或回归任务。在SVM中，“支持向量”是指对于最终超平面的构建和分类起到关键作用的训练数据点。

下面解释“支持（support）”的含义以及支持向量机中的作用：

支持向量（Support Vectors）：
- 支持向量是训练数据中的一小部分样本点，它们位于超平面附近并且对超平面的位置和方向具有决定性的影响。
- 这些样本点是离超平面最近的点，即距离超平面最近的正类别和负类别的数据点。
- 支持向量的特点是其对应的拉格朗日乘子 $\alpha$ 不为零，即 $\alpha > 0$ 。
- 支持向量的存在是SVM的关键，因为它们决定了分类间隔的大小和超平面的位置。
“支持”（Support）的含义：
- “支持”表示支持向量在SVM模型中的关键作用。这些样本点“支撑”着超平面的位置和分类决策。
- 支持向量机的目标是最大化分类间隔，即最大化支持向量到超平面的距离，以确保模型在新数据上的泛化性能良好。
- 支持向量在模型的决策边界（超平面）上，因此它们对于分类任务的成功与否具有决定性的影响。

总结一下，支持向量机中的“支持向量”是指那些对于超平面位置和分类起到关键作用的训练数据点。它们的存在和位置决定了SVM的性能和分类决策。通过最大化支持向量到超平面的距离，SVM确保了模型的鲁棒性和泛化能力。

15.7-软间隔优化

支持向量机（SVM）的软间隔（Soft Margin）优化是一种扩展，用于处理数据集中不完全线性可分的情况。在实际问题中，数据通常包含一些噪音或离群点，或者存在一些样本点不容易被严格线性分开。软间隔SVM允许一定程度的分类错误，以获得更广泛的适用性。

以下是关于软间隔SVM的介绍：

软间隔的概念：
- 在传统的硬间隔SVM中，要求数据集必须是线性可分的，也就是存在一个超平面可以完美分开两个类别。
- 软间隔SVM引入了容错性，允许一些数据点位于错误的一侧或在间隔内部。这些分类错误被称为“间隔违规”（Margin Violations）。
- 软间隔的目标是最大化分类间隔的同时，最小化间隔违规的数量。
优化目标函数：
- 软间隔SVM的优化目标函数可以表示为：
  
  $\min_{w, b, \xi} \frac{1}{2} ||w||^2 + C \sum_{i=1}^{N} \xi_i$
  
  其中， $C$ 是一个正则化参数，控制着容忍间隔违规的程度。
  - 第一项 $\frac{1}{2} ||w||^2$ 仍然表示最大化分类间隔。
  - 第二项 $\sum_{i=1}^{N} \xi_i$ 表示最小化间隔违规的总和， $\xi_i$ 是用来度量第 $i$ 个样本的间隔违规量的非负变量。
约束条件：
- 约束条件要求每个数据点的间隔违规量 $\xi_i$ 不超过1。这可以表示为：
  
  $y_i \cdot (w \cdot x_i + b) \geq 1 - \xi_i, \quad \text{for all} \quad i = 1, 2, \ldots, N$
- 这个约束确保了数据点要么在正确的一侧（间隔违规 $\xi_i = 0$ ），要么在正确的一侧但有一定程度的间隔违规（ $0 < \xi_i < 1$ ）。
调整正则化参数 $C$ ：
- 参数 $C$ 控制着间隔违规的权衡。较大的 $C$ 值将更严格地惩罚间隔违规，以获得更精确的分类边界，但可能过拟合。
- 较小的 $C$ 值允许更多的间隔违规，更容忍噪音或异常值，以获得更好的泛化性能。

总之，软间隔SVM通过引入容错性，允许在一些程度上的分类错误，以适应实际问题中存在的噪音或难以分离的情况。通过调整正则化参数 $C$ ，可以在精确性和泛化性能之间进行权衡。这使得软间隔SVM在实际应用中更具灵活性。

15.8-核函数的作用

支持向量机（Support Vector Machine，SVM）中的核函数（Kernel Function）是一种重要的技术，用于处理非线性问题。核函数允许SVM在原始特征空间中无法线性分离的数据通过映射到高维特征空间来实现线性可分，从而扩展了SVM的应用范围。

以下是关于核函数的介绍：

核函数的基本概念：
- 核函数是一个数学函数，它将原始特征空间中的数据映射到一个高维特征空间中。
- 核函数的特点是计算高维特征空间中的内积，而无需显式计算映射后的特征向量。
- 核函数的应用使得SVM在高维特征空间中学习线性分类器，而在原始特征空间中表现为非线性分类器。
核函数的作用：
- 核函数允许SVM处理非线性问题，即使在原始特征空间中无法线性分离数据的情况下也可以实现高性能的分类。
- 通过将数据映射到高维空间，SVM可以在新的特征空间中找到一个线性超平面，以实现在原始特征空间中非线性分离的效果。
常用的核函数：
- 线性核（Linear Kernel）： $K(x, x') = x \cdot x'$ ，在原始特征空间中实现线性分类。
- 多项式核（Polynomial Kernel）： $K(x, x') = (x \cdot x' + c)^d$ ，将数据映射到高维空间进行多项式扩展。
- 高斯核（Gaussian Kernel或RBF Kernel，Radial Basis Function Kernel）： $K(x, x') = \exp\left(-\frac{||x - x'||^2}{2\sigma^2}\right)$ ，通过高斯分布函数将数据映射到无限维的特征空间，非常适合处理复杂的非线性问题。
- 其他自定义核函数：根据问题的特点，还可以定义自己的核函数。
核函数的选择：
- 选择合适的核函数通常依赖于具体问题和数据的特性。
- 高斯核函数（RBF核）是SVM中最常用的核函数，因为它在处理各种非线性问题时表现良好。
- 选择核函数时需要谨慎，过度复杂的核函数可能导致过拟合，因此需要进行交叉验证来确定最佳的核函数和参数。