今天向大家展示一下支持向量机(SVM)的分类与回归使用。
这里首先使用自己创造的一个理想数据集来对支持向量机做出简单的介绍。
# -*- coding:UTF-8 -*-
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.datasets import make_blobs
x, Y = make_blobs(n_samples=50, centers=2, random_state=6)
'''
SVM对高维数据集和低维数据集效果都比较好,但不适用于大规模数据集(不超过1万)
SVM对数据预处理和参数调节要求较高,决策树没有这些预处理和参数调节要求
'''
# 创建一个线性内核的SVM模型
clf = svm.SVC(kernel='linear', C=1000)
clf.fit(x, Y)
plt.scatter(x[:, 0], x[:, 1], c=Y, s=30, cmap=plt.cm.Paired)
# 建立图像坐标
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()
# 生成两个等差数列
xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
XX, YY = np.meshgrid(xx, yy)
xy = np.vstack([XX.ravel(), YY.ravel()]).T
Z = clf.decision_function(xy).reshape(XX.shape)
# 画出分类边界
ax.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1], alpha=0.5,
linestyles=['--', '-', '--'])
ax.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=100,
linewidths=1, facecolor='none')
plt.show()
# 创建一个RBF(高斯内核)的SVM模型,这里的效果不是很明显
clf1 = svm.SVC(kernel='rbf', C=1000)
clf1.fit(x, Y)
plt.scatter(x[:, 0], x[:, 1], c=Y, s=30, cmap=plt.cm.Paired)
# 建立图像坐标
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()
# 生成两个等差数列
xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
YY, XX = np.meshgrid(yy, xx)
xy = np.vstack([XX.ravel(), YY.ravel()]).T
Z = clf1.decision_function(xy).reshape(XX.shape)
# 画出分类边界
ax.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1], alpha=0.5,
linestyles=['--', '-', '--'])
ax.scatter(clf1.support_vectors_[:, 0], clf1.support_vectors_[:, 1], s=100,
linewidths=1, facecolor='none')
plt.show()
上图是使用线性内核时出现的分类结果,可以看到分类的效果还是挺好的。清楚的分出了决策边界点。
上图是使用高斯内核得到的分类结果,可以看出与线性内核的结果比较而言,高斯内核的决策边界是一条曲线, 它在努力地将分裂结果包围起来,形成一个封闭区域;高斯内核与线性内核采用了相同的决策点,这说明两者在原理上是相近的。接下来,我们使用真实数据集来观察一下SVM分类与回归方法的使用。