Python从0到100（五十五）：支持向量机及手写数字进行分类

是Dream呀

于 2024-08-27 11:09:54 发布

阅读量516

点赞数 14

分类专栏： Python 文章标签：支持向量机分类算法

是Dream呀独家版权

本文链接：https://blog.csdn.net/weixin_51390582/article/details/140535167

版权

Python 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

支持向量机（Support Vector Machine，SVM）是⼀种强⼤的监督学习算法，主要⽤于分类问题，但也可⽤于回归和异常检测。SVM的基本原理是在特征空间中找到⼀个最优的超平⾯，以最大化不同类别之间的间隔，从而使分类更加准确。

1.基本原理

1、间隔最大化：SVM 的⽬标是找到⼀个超平⾯，使不同类别的样本点到这个超平⾯的距离（间隔）最大化。这个间隔被称为“间隔最大化”。
2、支持向量：在SVM中，只有⼀小部分样本点对超平⾯的位置具有影响力，它们被称为“⽀持向量”。这些⽀持向量是距离超平⾯最近的样本点，它们决定了超平⾯的位置。
3、核技巧：SVM还使⽤了核函数，可以将数据从原始特征空间映射到⼀个更⾼维度的特征空间。这使得SVM可以处理非线性可分的数据。

2.公式模型

支持向量机的核心公式是间隔最大化的优化问题。对于线性可分的情况，⽀持向量机的⽬标函数为：
在这里插入图片描述

其中，w是超平⾯的法向量，b是偏置项，xi是训练样本，yi是样本的类别标签。
在SVM中，核⼼公式涉及到以下关键概念：
1、决策函数：⽤于将输⼊特征向量映射到超平⾯并进⾏分类。决策函数的基本形式如下：
在这里插入图片描述
其中,f(x)是决策函数的输出，w是超平⾯的法向量（权重向量），x 是输⼊特征向量，b是偏置（截距）,表示sign点积，sign是符号函数，⽤于分类。
2、间隔：SVM的目标是最大⼤化间隔，其中间隔定义为支持向量到超平⾯的距离的两倍。支持向量到超平⾯的距离可以⽤以下公式表示：
在这里插入图片描述
其中， ||w||表示权重向量的范数。
3、优化问题：SVM的⽬标是通过解⼀个凸优化问题来找到最优的权重向量w和偏置b，以最⼤化间隔。这个问题的数学表达式可以写为:

其中，yi是样本的类别标签，xi是样本的特征向量。

SVM的核心在于找到这个优化问题的解，从而确定最佳的超平⾯，实现分类任务。不同的核函数可以⽤来处理不同类型的数据，例如线性核、多项式核和⾼斯核。核函数允许SVM处理非线性问题，将数据映射到更⾼维度的空间，使其在那个空间中变得线性可分。通过调整超参数和选择合适的核函数，SVM可以在各种分类和回归问题上表现出色。

3.优缺点

优点：

有效处理⾼维数据：⽀持向量机在⾼维特征空间中表现良好，适⽤于处理⾼维数据。
泛化能⼒强：⽀持向量机通过最⼤化间隔，具有较好的泛化能⼒，对于避免过拟合有⼀定的帮助。
适⽤于⾮线性问题：⽀持向量机引⼊了核函数的概念，能够处理⾮线性关系的数据。

缺点：

计算复杂度⾼：⽀持向量机的训练时间复杂度较⾼，尤其是在处理⼤型数据集时。
对参数调节和核函数选择敏感：⽀持向量机的性能⾼度依赖于参数调节和核函数的选择，需要进行较多的调优⼯作。
不适⽤于大规模数据集：由于计算复杂度⾼，⽀持向量机对大规模数据集的处理能⼒较差。

4.适用场景

⽀持向量机适⽤于以下场景：

二分类和多分类问题：⽀持向量机可以应⽤于二分类和多分类问题。
⾼维数据集：支持向量机在处理⾼维数据集时表现良好。
非线性问题：支持向量机能够处理非线性关系的数据，并通过选择合适的核函数来实现

⽀持向量机是⼀种强⼤的监督学习算法，尤其适⽤于处理⾼维数据和需要泛化能⼒强的情况。然⽽，在处理⼤规模数据集和参数调节⽅⾯，需要谨慎选择，并进⾏适当的调优⼯作。

5.SVM对手写数字进行分类

基于开源数据集的⽀持向量机（SVM）实例代码，使⽤的数据集是⼿写数字识别数据集（MNIST dataset）。我们将使⽤SVM算法来对⼿写数字进⾏分类：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix
# 加载⼿写数字数据集
digits = load_digits()
X = digits.data
y = digits.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 构建⽀持向量机模型
svm = SVC(kernel='rbf', gamma='scale')
svm.fit(X_train, y_train)
# 在测试集上进⾏预测
y_pred = svm.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
# 绘制混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
plt.imshow(conf_matrix, cmap='Blues')
plt.colorbar()
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.title('Confusion Matrix')
plt.show()
# 随机选择⼀些样本并展示预测结果
plt.figure(figsize=(10, 8))
for i in range(10):
    idx = np.random.randint(0, len(X_test))
    image = X_test[idx].reshape(8, 8)
    plt.subplot(2, 5, i+1)
    plt.imshow(image, cmap='binary')
    plt.title(f'Predicted: {y_pred[idx]}, Actual: {y_test[idx]}')
    plt.axis('off')
plt.show()

在这个例⼦中，我们⾸先加载了⼿写数字数据集，并划分了训练集和测试集。然后我们构建了⼀个⽀持向量机分类器，并在测试集上进⾏了预测。接着，我们计算了模型的准确率，并绘制了混淆矩阵来评估模型的性能。
在这里插入图片描述
最后，我们随机选择了⼀些样本并展示了它们的预测结果：

是Dream呀

关注

14
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python从0到100（五十五）：支持向量机及手写数字进行分类

支持向量机（Support Vector Machine，SVM）是⼀种强⼤的监督学习算法，主要⽤于分类问题，但也可⽤于回归和异常检测。SVM的基本原理是在特征空间中找到⼀个最优的超平⾯，以最大化不同类别之间的间隔，从而使分类更加准确。
复制链接

扫一扫