【无标题】

最新推荐文章于 2024-09-27 14:28:55 发布

星辰大海936

最新推荐文章于 2024-09-27 14:28:55 发布

阅读量1k

点赞数 23

分类专栏：数学建模文章标签：算法

本文链接：https://blog.csdn.net/weixin_74188799/article/details/141907459

版权

数学建模专栏收录该内容

9 篇文章 0 订阅

订阅专栏

支持向量机分析

1. 硬间隔支持向量机

硬间隔支持向量机的目标是找到一个超平面，使得所有数据点都位于间隔边界之外，并且间隔最大化。其优化问题可以表示为：

$\begin{array}{c} \min _w \frac{1}{2} \|w\|^2 \\ \text{s.t.} \quad y_i (w^T x_i + b) \ge 1, \quad \forall i \end{array}$

公式来源

目标函数： $\frac{1}{2} \|w\|^2$ 是为了最大化间隔。通过最小化 $w\|^2$ ，我们实际上是在最大化间隔，因为间隔的大小与 $\frac{1}{\|w\|}$ 成反比。
约束条件： $y_i (w^T x_i + b) \ge 1$ 确保所有数据点都位于间隔边界之外。对于正类数据点（ $y_i = 1$ ），要求 $w^T x_i + b \ge 1$ ；对于负类数据点（ $y_i = -1$ ），要求 $w^T x_i + b \le -1$ 。

2. 软间隔支持向量机

当数据不可分时，我们需要引入松弛变量 $\xi_i$ 来允许一些数据点违反间隔条件，从而转化为软间隔优化问题。软间隔优化问题可以表示为：

$\begin{array}{c} \min_{w, b, \xi} \frac{1}{2} \|w\|^2 + C \sum_{i=1}^{n} \xi_i \\ \text{s.t.} \quad y_i (w^T x_i + b) \ge 1 - \xi_i, \quad \xi_i \ge 0, \quad \forall i \end{array}$

公式来源

目标函数： $\frac{1}{2} \|w\|^2 + C \sum_{i=1}^{n} \xi_i$ 。这里， $\frac{1}{2} \|w\|^2$ 仍然是为了最大化间隔，而 $\sum_{i=1}^{n} \xi_i$ 是为了惩罚违反间隔条件的数据点。 $C$ 是一个正则化参数，用于平衡间隔的宽度和违反间隔条件的数据点数量。
约束条件： $y_i (w^T x_i + b) \ge 1 - \xi_i$ 确保数据点尽可能位于间隔边界之外，但允许一些数据点违反间隔条件。 $\xi_i \ge 0$ 确保松弛变量为非负。
#分析#：也就是说，允许一部分应该满足条件的数据，例如应该 $\ge1$ 的数据 $\ge1-\xi$ 就可以了，相当于引入了一个偏差，允许偏差存在，但是偏差要足够小，所以带入了目标函数作为我们的惩罚项。
违反间隔条件：当 $\xi_i > 0$ 时，表示第 $i$ 个数据点违反了间隔条件。具体来说， $\xi_i$ 越大，表示数据点越接近或越远离其应在的位置。
惩罚项： $\sum_{i=1}^{n} \xi_i$ 是目标函数中的惩罚项，用于控制违反间隔条件的数据点数量和程度。 $C$ 是一个超参数，用于平衡间隔的宽度和违反间隔条件的数据点数量。较大的 $C$ 值会导致模型对违反间隔条件的数据点更加敏感，而较小的 $C$ 值会使模型更加宽容。

3. 拉格朗日对偶形式

为了求解这个优化问题，我们可以引入拉格朗日乘子 $\alpha_i$ 和 $\mu_i$ ，并构建拉格朗日函数：

$\xi, \alpha, \mu) = \frac{1}{2} \|w\|^2 + C \sum_{i=1}^{n} \xi_i - \sum_{i=1}^{n} \alpha_i [y_i (w^T x_i + b) - 1 + \xi_i] - \sum_{i=1}^{n} \mu_i \xi_i$

通过对 $w$ , $b$ , $\xi$ 求偏导并设为零，可以得到对偶问题：

$\begin{array}{c} \max_{\alpha} \sum_{i=1}^{n} \alpha_i - \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} \alpha_i \alpha_j y_i y_j x_i^T x_j \\ \text{s.t.} \quad 0 \le \alpha_i \le C, \quad \sum_{i=1}^{n} \alpha_i y_i = 0 \end{array}$

注：

在构建支持向量机（SVM）的拉格朗日对偶问题时，我们通常对原始变量（ $w$ , $b$ , $\xi$ ）求偏导数并设为零，而不是对拉格朗日乘子（ $\alpha_i$ , $\mu_i$ ）求导数。这是因为我们希望通过消去原始变量，得到一个仅关于拉格朗日乘子的对偶问题。让我们详细分析一下这个过程。

1. 拉格朗日函数

首先，我们构建拉格朗日函数：

$\xi, \alpha, \mu) = \frac{1}{2} \|w\|^2 + C \sum_{i=1}^{n} \xi_i - \sum_{i=1}^{n} \alpha_i [y_i (w^T x_i + b) - 1 + \xi_i] - \sum_{i=1}^{n} \mu_i \xi_i$

2. 对原始变量求偏导数并设为零

我们对原始变量 $w$ , $b$ , $\xi$ 求偏导数并设为零，以消去这些变量，从而得到对偶问题。

对 $w$ 求偏导并设为零

$\frac{\partial L}{\partial w} = w - \sum_{i=1}^{n} \alpha_i y_i x_i = 0$

解得：

$\sum_{i=1}^{n} \alpha_i y_i x_i$

对 $b$ 求偏导并设为零

$\frac{\partial L}{\partial b} = - \sum_{i=1}^{n} \alpha_i y_i = 0$

解得：

$\sum_{i=1}^{n} \alpha_i y_i = 0$

对 $\xi_i$ 求偏导并设为零

$\frac{\partial L}{\partial \xi_i} = C - \alpha_i - \mu_i = 0$

解得：

$\alpha_i + \mu_i = C$

3. 构建对偶问题

通过对原始变量求偏导并设为零，我们得到了 $w$ , $b$ , $\xi$ 的表达式。接下来，我们将这些表达式代入拉格朗日函数中，消去 $w$ , $b$ , $\xi$ ，从而得到一个仅关于拉格朗日乘子 $\alpha_i$ 的对偶问题。

将 $\sum_{i=1}^{n} \alpha_i y_i x_i$ 代入拉格朗日函数：

$\xi, \alpha, \mu) = \frac{1}{2} \left( \sum_{i=1}^{n} \alpha_i y_i x_i \right)^2 + C \sum_{i=1}^{n} \xi_i - \sum_{i=1}^{n} \alpha_i [y_i (\sum_{j=1}^{n} \alpha_j y_j x_j^T x_i + b) - 1 + \xi_i] - \sum_{i=1}^{n} \mu_i \xi_i$

通过整理和简化，可以得到对偶问题：

4. 为什么不对拉格朗日乘子求导数？

对拉格朗日乘子（ $\alpha_i$ , $\mu_i$ ）求导数并设为零并不能直接得到对偶问题。拉格朗日乘子是用于处理约束条件的，通过对原始变量求偏导并设为零，我们可以消去这些变量，从而得到一个仅关于拉格朗日乘子的对偶问题。对偶问题的解与原始问题的解是等价的，但对偶问题通常更容易求解。

公式来源

拉格朗日函数：通过引入拉格朗日乘子 $\alpha_i$ 和 $\mu_i$ ，我们将原始问题的约束条件合并到目标函数中。
对偶问题：通过对 $w$ , $b$ , $\xi$ 求偏导并设为零，我们可以消去这些变量，得到一个仅关于 $\alpha_i$ 的对偶问题。对偶问题的解与原始问题的解是等价的。