本文所用文件的链接
链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ
提取码:p57s
支持向量机(SVM)
支持向量机原理
-
寻求最优分类边界
正确: 对大部分样本可以正确的划分类别.
泛化: 最大化支持向量间距.
公平: 各类别与分类边界等距.
简单: 基于线性模型, 直线/平面.
-
基于核函数的升维变换
通过名为核函数的特征变换, 增加新的特征, 使得低维度空间中的线性不可分问题在高维度空间变得线性可分。通俗的说,之前我们的分类,都是用直线,在二维平面内进行分割的,但是如果遇到如下的情况,就无法在二维平面内直接分割了,此时就可以利用支持向量机,将二维的数据上升到多维来进行分类。将原来的利用直线改成用曲线。主要方法就是改变API中的核函数。
支持向量机的使用
线性核函数: linear 不通过核函数进行维度提升, 仅在原始维度空间中寻求线性分类边界.
import sklearn.svm as svm
model = svm.SVC(kernel='linear')
model.fit(x, y)
pred_test_y = model.predict(test_x)
先来看一下用之前的方式进行分类的方法。
"""
支持向量机
"""
import numpy as np
import sklearn.model_selection as ms
import sklearn.svm as svm
import sklearn.metrics as sm
import matplotlib.pyplot as mp
x, y = [],[]
data=np.loadtxt('../ml_data/multiple2.txt',
delimiter=',')
x = data[:, :-1]
y = data[:, -1]
# 拆分训练集与测试集
train_x, test_x, train_y, test_y = \
ms.train_test_split(x, y, test_size=0.25,
random_state=5)
# 基于线性核函数的svm绘制分类边界
model=svm.SVC(kernel='linear')
model.fit(train_x, train_y)
# 绘制分类边界线
l, r = x[:, 0].min()-1, x[:, 0].max()+1
b, t = x[:, 1].min()-1, x[:, 1].max()+1
n = 500
grid_x, grid_y = np.meshgrid(
np.linspace(l, r, n),
np.linspace(b, t, n))
# 把grid_x与grid_y抻平了组成模型的输入,预测输出
mesh_x = np.column_stack(
(grid_x.ravel(), grid_y.ravel()))
pred_mesh_y = model.predict(mesh_x)
grid_z = pred_mesh_y.reshape(grid_x.shape)
# 看一看测试集的分类报告
pred_test_y = model.predict(test_x)
cr = sm.classification_report(
test_y, pred_test_y)
print(cr)
# 绘制这些点
mp.figure('SVM', facecolor='lightgray')
mp.title('SVM', fontsize=16)
mp.xlabel('X', fontsize=14)
mp.ylabel('Y', fontsize=14)
mp.tick_params(labelsize=10)
mp.pcolormesh(grid_x,grid_y,grid_z,cmap='gray')
mp.scatter(x[:,0], x[:,1], s=60,
c=y, label='points', cmap='jet')
mp.legend()
mp.show()
如图所示,这个分类是非常失败的,根本没有任何效果。
多项式核函数: poly 通过多项式函数增加原始样本特征的高次方幂.
案例: 基于多项式核函数, 训练multiple2.txt
# 基于多项式核函数的svm绘制分类边界
model=svm.SVC(kernel='poly', degree=3)
model.fit(train_x, train_y)
看下多项式核函数的效果:
"""
支持向量机 多项式核函数
"""
import numpy as np
import sklearn.model_selection as ms
import sklearn.svm as svm
import sklearn.metrics as sm
import matplotlib.pyplot as mp
x, y = [],[]
data=np.loadtxt('../ml_data/multiple2.txt',
delimiter=',')
x = data[:, :-1]
y = data[:, -1]
# 拆分训练集与测试集
train_x, test_x, train_y, test_y = \
ms.train_test_split(x, y, test_size=0.25,
random_state=5)
# 基于多项式核函数的svm绘制分类边界
model=svm.SVC(kernel='poly', degree=3)
model.fit(train_x, train_y)
# 绘制分类边界线
l, r = x[:, 0].min()-1, x[:, 0].max()+1
b, t = x[:, 1].min()-1, x[:, 1].max()+1
n = 500
grid_x, grid_y = np.meshgrid(
np.linspace(l, r, n),
np.linspace(b, t, n))
# 把grid_x与grid_y抻平了组成模型的输入,预测输出
mesh_x = np.column_stack(
(grid_x.ravel(), grid_y.ravel()))
pred_mesh_y = model.predict(mesh_x)
grid_z = pred_mesh_y.reshape(grid_x.shape)
# 看一看测试集的分类报告
pred_test_y = model.predict(test_x)
cr = sm.classification_report(
test_y, pred_test_y)
print(cr)
# 绘制这些点
mp.figure('SVM', facecolor='lightgray')
mp.title('SVM', fontsize=16)
mp.xlabel('X', fontsize=14)
mp.ylabel('Y', fontsize=14)
mp.tick_params(labelsize=10)
mp.pcolormesh(grid_x,grid_y,grid_z,cmap='gray')
mp.scatter(x[:,0], x[:,1], s=60,
c=y, label='points', cmap='jet')
mp.legend()
mp.show()
如图:分类的效果明显提升,能分离大部分的数据,但是也还不够完美。
径向基核函数: rbf , 通过高斯分布函数增加原始样本特征的分布概率作为新的特征.
# C: 正则项
# gamma: 正态分布曲线的标准差
model= svm.SVC(
kernel='rbf', C=600, gamma=0.01)
案例:再来试一下径向基核函数:
# 基于多项式核函数的svm绘制分类边界
model=svm.SVC(kernel='rbf', C=600, gamma=0.01)
model.fit(train_x, train_y)
"""
支持向量机 径向基核函数
"""
import numpy as np
import sklearn.model_selection as ms
import sklearn.svm as svm
import sklearn.metrics as sm
import matplotlib.pyplot as mp
x, y = [],[]
data=np.loadtxt('../ml_data/multiple2.txt',
delimiter=',')
x = data[:, :-1]
y = data[:, -1]
# 拆分训练集与测试集
train_x, test_x, train_y, test_y = \
ms.train_test_split(x, y, test_size=0.25,
random_state=5)
# 基于多项式核函数的svm绘制分类边界
model=svm.SVC(kernel='rbf', C=600, gamma=0.01)
model.fit(train_x, train_y)
# 绘制分类边界线
l, r = x[:, 0].min()-1, x[:, 0].max()+1
b, t = x[:, 1].min()-1, x[:, 1].max()+1
n = 500
grid_x, grid_y = np.meshgrid(
np.linspace(l, r, n),
np.linspace(b, t, n))
# 把grid_x与grid_y抻平了组成模型的输入,预测输出
mesh_x = np.column_stack(
(grid_x.ravel(), grid_y.ravel()))
pred_mesh_y = model.predict(mesh_x)
grid_z = pred_mesh_y.reshape(grid_x.shape)
# 看一看测试集的分类报告
pred_test_y = model.predict(test_x)
cr = sm.classification_report(
test_y, pred_test_y)
print(cr)
# 绘制这些点
mp.figure('SVM', facecolor='lightgray')
mp.title('SVM', fontsize=16)
mp.xlabel('X', fontsize=14)
mp.ylabel('Y', fontsize=14)
mp.tick_params(labelsize=10)
mp.pcolormesh(grid_x,grid_y,grid_z,cmap='gray')
mp.scatter(x[:,0], x[:,1], s=60,
c=y, label='points', cmap='jet')
mp.legend()
mp.show()
如图所示:完美再升级