机器学习——支持向量机

wsdswzj

于 2024-06-11 16:13:44 发布

阅读量564

点赞数 9

文章标签：支持向量机机器学习算法

本文链接：https://blog.csdn.net/wsndddhh/article/details/139596507

版权

一、支持向量机简介

支持向量机（Support Vector Machines, SVM）是一种监督学习模型，用于解决二分类问题，在机器学习领域有着广泛的应用。SVM通过在样本空间中寻找一个划分超平面，将不同类别的样本分开，同时使得两个点集到此平面的距离（即间隔）最大，因此又被称为最大间隔超平面。

1.1、硬间隔

硬间隔SVM试图找到一个能够完全分离数据的超平面。这适用于线性可分的数据集，但在实际应用中，数据往往是线性不可分的，这使得硬间隔SVM在实践中不太常用。硬间隔SVM的目标是最大化超平面的间隔（即离决策边界最近的样本到超平面的最小距离），同时保证所有样本都被正确分类。

具体地，硬间隔SVM的问题可以表述为：

$[ \min_{\mathbf{w}, b} \frac{1}{2} |\mathbf{w}|^2 ] [ \text{subject to } y_i(\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1, \quad \forall i ]$

其中：

( $\mathbf{w}$ ) 是超平面的法向量
(b) 是超平面的偏置项
(y_i) 是第 (i) 个样本的标签（+1 或 -1）
( $\mathbf{x}_i$ ) 是第 (i) 个样本的特征向量

1.2、软间隔

软间隔SVM通过引入松弛变量来允许一定程度的分类错误，从而更适用于现实中的线性不可分数据。软间隔SVM在寻找超平面的过程中，不仅要最大化间隔，还要平衡分类错误的数量。

具体地，软间隔SVM的问题可以表述为：

$[ \min_{\mathbf{w}, b, \xi} \frac{1}{2} |\mathbf{w}|^2 + C \sum_{i=1}^{n} \xi_i ] [ \text{subject to } y_i(\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0, \quad \forall i ]$

其中：

( $\xi_i$ ) 是松弛变量，表示第 (i) 个样本允许的误差
(C) 是惩罚参数，控制间隔最大化和分类错误之间的权衡。较大的 (C) 值会减少分类错误但可能导致过拟合；较小的 (C) 值会增加分类错误但可能提升模型的泛化能力

1.3拉格朗日乘数法

支持向量机（SVM）的优化问题通常使用拉格朗日乘数法进行求解。拉格朗日方法帮助我们将原始的优化问题转化为对偶问题，从而更容易求解。下面详细介绍硬间隔SVM和软间隔SVM的拉格朗日形式。

硬间隔SVM的拉格朗日形式

硬间隔SVM的目标是找到最大化间隔的超平面，同时保证所有样本都被正确分类。其优化问题为：

$[ \min_{\mathbf{w}, b} \frac{1}{2} |\mathbf{w}|^2 ] [ \text{subject to } y_i(\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1, \quad \forall i ]$

为了将其转化为拉格朗日形式，我们引入拉格朗日乘数 $(\alpha_i \geq 0)$ ，对应于每个约束条件 $(y_i(\mathbf{w} \cdot \mathbf{x}_i + b) - 1 \geq 0)$ 。拉格朗日函数定义为：

$[ L(\mathbf{w}, b, \boldsymbol{\alpha}) = \frac{1}{2} |\mathbf{w}|^2 - \sum_{i=1}^{n} \alpha_i [y_i(\mathbf{w} \cdot \mathbf{x}_i + b) - 1] ]$

为了找到最优解，我们需要对 $(\mathbf{w})$ 和 (b) 求偏导并令其等于零：

$[ \frac{\partial L}{\partial \mathbf{w}} = \mathbf{w} - \sum_{i=1}^{n} \alpha_i y_i \mathbf{x}i = 0 ] [ \mathbf{w} = \sum{i=1}^{n} \alpha_i y_i \mathbf{x}_i ]$

$[ \frac{\partial L}{\partial b} = -\sum_{i=1}^{n} \alpha_i y_i = 0 ]$

将这些条件代入拉格朗日函数，得到对偶问题：

$[ \max_{\boldsymbol{\alpha}} \sum_{i=1}^{n} \alpha_i - \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} \alpha_i \alpha_j y_i y_j (\mathbf{x}_i \cdot \mathbf{x}j) ] [ \text{subject to } \sum{i=1}^{n} \alpha_i y_i = 0 ] [ \alpha_i \geq 0, \quad \forall i ]$

软间隔SVM的拉格朗日形式

软间隔SVM允许分类错误，并引入松弛变量 $(\xi_i)$ 。其优化问题为：

$[ \min_{\mathbf{w}, b, \boldsymbol{\xi}} \frac{1}{2} |\mathbf{w}|^2 + C \sum_{i=1}^{n} \xi_i ] [ \text{subject to } y_i(\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0, \quad \forall i ]$

引入拉格朗日乘数 $(\alpha_i \geq 0)$ 和 $(\mu_i \geq 0)$ 对应于每个约束条件 $(y_i(\mathbf{w} \cdot \mathbf{x}_i + b) - 1 + \xi_i \geq 0) (\xi_i \geq 0)$ 。拉格朗日函数为：

$[ L(\mathbf{w}, b, \boldsymbol{\xi}, \boldsymbol{\alpha}, \boldsymbol{\mu}) = \frac{1}{2} |\mathbf{w}|^2 + C \sum_{i=1}^{n} \xi_i - \sum_{i=1}^{n} \alpha_i [y_i(\mathbf{w} \cdot \mathbf{x}i + b) - 1 + \xi_i] - \sum{i=1}^{n} \mu_i \xi_i ]$

同样，对 $(\mathbf{w})$ , (b), 和 $(\boldsymbol{\xi})$ 求偏导并令其等于零：

$[ \frac{\partial L}{\partial \mathbf{w}} = \mathbf{w} - \sum_{i=1}^{n} \alpha_i y_i \mathbf{x}i = 0 ] [ \mathbf{w} = \sum{i=1}^{n} \alpha_i y_i \mathbf{x}_i ]$
$[ \frac{\partial L}{\partial b} = -\sum_{i=1}^{n} \alpha_i y_i = 0 ] [ \frac{\partial L}{\partial \xi_i} = C - \alpha_i - \mu_i = 0 ] [ \alpha_i = C - \mu_i ]$

将这些条件带入拉格朗日函数中，得到软间隔SVM的对偶问题：

在实际应用中，我们通常通过数值优化方法（如SMO算法）来求解这个对偶问题，从而找到支持向量和决策边界。

1.4、核函数

核函数在支持向量机（SVM）中扮演着重要的角色，它可以将输入空间中的数据映射到高维特征空间，从而使非线性可分的问题在高维空间中变得线性可分。这样可以通过线性分类器（如硬间隔SVM）来处理非线性分类问题。常见的核函数包括线性核、多项式核、高斯核等。

线性核

线性核是最简单的核函数，它直接在原始输入空间中进行线性分类。线性核的形式为：

$[ K(\mathbf{x}_i, \mathbf{x}_j) = \mathbf{x}_i \cdot \mathbf{x}_j ]$

多项式核

多项式核引入了多项式的非线性映射，可以处理一定程度上的非线性分类问题。多项式核的形式为：

$[ K(\mathbf{x}_i, \mathbf{x}_j) = (\gamma \mathbf{x}_i \cdot \mathbf{x}_j + r)^d ]$

其中， $(\gamma)$ 是尺度因子，(r) 是常数项，(d) 是多项式的次数。

二、实例

我的代码是利用支持向量机实现鸢尾花的二分类

2.1、数据处理

利用库中的鸢尾花数据，对鸢尾花中的数据分为训练集与测试集并进行标准化处理

# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data  # 特征数据
y = iris.target  # 标签数据

# 只取两类数据进行二分类
X = X[y != 2]  # 去掉第三类
y = y[y != 2]  # 去掉第三类的标签
y = np.where(y == 0, -1, 1)  # 将类别标签0改为-1

# 数据集划分为训练集和测试集
np.random.seed(42)  # 设置随机种子
shuffle_indices = np.random.permutation(len(X))  # 打乱数据
X, y = X[shuffle_indices], y[shuffle_indices]  # 重新排序数据
split_index = int(0.7 * len(X))  # 计算70%数据的索引
X_train, X_test = X[:split_index], X[split_index:]  # 分割为训练集
y_train, y_test = y[:split_index], y[split_index:]  # 分割为测试集

# 标准化特征
mean = X_train.mean(axis=0)  # 计算训练集均值
std = X_train.std(axis=0)  # 计算训练集标准差
X_train = (X_train - mean) / std  # 标准化训练集
X_test = (X_test - mean) / std  # 标准化测试集

2.2、梯度下降法训练模型

首先初始化权重w和偏置b，然后进行迭代更新。在每次迭代中，遍历训练数据集，检查是否满足条件，如果满足条件，则更新权重；否则，同时更新权重和偏置。

# SVM参数
learning_rate = 0.001  # 学习率
lambda_param = 0.01  # 正则化参数
C = 1.0  # 惩罚参数
num_iterations = 1000  # 迭代次数

# 初始化权重和偏置
w = np.zeros(X_train.shape[1])  # 初始化权重为零
b = 0  # 初始化偏置为零

# 梯度下降法训练模型
for i in range(num_iterations):  # 迭代500次
    for idx, x_i in enumerate(X_train):
        condition = y_train[idx] * (np.dot(x_i, w) + b) >= 1  # 检查是否满足条件
        if condition:
            w -= learning_rate * (2 * lambda_param * w)  # 更新权重
        else:
            w -= learning_rate * (2 * lambda_param * w - np.dot(x_i, y_train[idx]) * C)  # 更新权重
            b -= learning_rate * y_train[idx] * C  # 更新偏置