python+sklearn训练支持向量机分类模型

本文所用文件的链接

链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ
提取码:p57s

支持向量机(SVM)

支持向量机原理
  1. 寻求最优分类边界

    正确: 对大部分样本可以正确的划分类别.

    泛化: 最大化支持向量间距.

    公平: 各类别与分类边界等距.

    简单: 基于线性模型, 直线/平面.

  2. 基于核函数的升维变换

    通过名为核函数的特征变换, 增加新的特征, 使得低维度空间中的线性不可分问题在高维度空间变得线性可分。通俗的说,之前我们的分类,都是用直线,在二维平面内进行分割的,但是如果遇到如下的情况,就无法在二维平面内直接分割了,此时就可以利用支持向量机,将二维的数据上升到多维来进行分类。将原来的利用直线改成用曲线。主要方法就是改变API中的核函数。
    在这里插入图片描述

支持向量机的使用

线性核函数: linear 不通过核函数进行维度提升, 仅在原始维度空间中寻求线性分类边界.

import sklearn.svm as svm
model = svm.SVC(kernel='linear')
model.fit(x, y)
pred_test_y = model.predict(test_x)

先来看一下用之前的方式进行分类的方法。

"""
支持向量机
"""
import numpy as np
import sklearn.model_selection as ms
import sklearn.svm as svm
import sklearn.metrics as sm
import matplotlib.pyplot as mp

x, y = [],[]
data=np.loadtxt('../ml_data/multiple2.txt', 
	 delimiter=',')
x = data[:, :-1]
y = data[:, -1]
# 拆分训练集与测试集
train_x, test_x, train_y, test_y = \
	ms.train_test_split(x, y, test_size=0.25,
	random_state=5)
# 基于线性核函数的svm绘制分类边界
model=svm.SVC(kernel='linear')
model.fit(train_x, train_y)

# 绘制分类边界线
l, r = x[:, 0].min()-1, x[:, 0].max()+1
b, t = x[:, 1].min()-1, x[:, 1].max()+1
n = 500
grid_x, grid_y = np.meshgrid(
	np.linspace(l, r, n),
	np.linspace(b, t, n))
# 把grid_x与grid_y抻平了组成模型的输入,预测输出
mesh_x = np.column_stack(
	(grid_x.ravel(), grid_y.ravel()))
pred_mesh_y = model.predict(mesh_x)
grid_z = pred_mesh_y.reshape(grid_x.shape)

# 看一看测试集的分类报告
pred_test_y = model.predict(test_x)
cr = sm.classification_report(
	  	test_y, pred_test_y)
print(cr)

# 绘制这些点
mp.figure('SVM', facecolor='lightgray')
mp.title('SVM', fontsize=16)
mp.xlabel('X', fontsize=14)
mp.ylabel('Y', fontsize=14)
mp.tick_params(labelsize=10)
mp.pcolormesh(grid_x,grid_y,grid_z,cmap='gray')

mp.scatter(x[:,0], x[:,1], s=60, 
		c=y, label='points', cmap='jet')

mp.legend()
mp.show()

如图所示,这个分类是非常失败的,根本没有任何效果。
在这里插入图片描述
多项式核函数: poly 通过多项式函数增加原始样本特征的高次方幂.

案例: 基于多项式核函数, 训练multiple2.txt

# 基于多项式核函数的svm绘制分类边界
model=svm.SVC(kernel='poly', degree=3)
model.fit(train_x, train_y)

看下多项式核函数的效果:

"""
支持向量机  多项式核函数
"""
import numpy as np
import sklearn.model_selection as ms
import sklearn.svm as svm
import sklearn.metrics as sm
import matplotlib.pyplot as mp

x, y = [],[]
data=np.loadtxt('../ml_data/multiple2.txt', 
	 delimiter=',')
x = data[:, :-1]
y = data[:, -1]
# 拆分训练集与测试集
train_x, test_x, train_y, test_y = \
	ms.train_test_split(x, y, test_size=0.25,
	random_state=5)
# 基于多项式核函数的svm绘制分类边界
model=svm.SVC(kernel='poly', degree=3)
model.fit(train_x, train_y)

# 绘制分类边界线
l, r = x[:, 0].min()-1, x[:, 0].max()+1
b, t = x[:, 1].min()-1, x[:, 1].max()+1
n = 500
grid_x, grid_y = np.meshgrid(
	np.linspace(l, r, n),
	np.linspace(b, t, n))
# 把grid_x与grid_y抻平了组成模型的输入,预测输出
mesh_x = np.column_stack(
	(grid_x.ravel(), grid_y.ravel()))
pred_mesh_y = model.predict(mesh_x)
grid_z = pred_mesh_y.reshape(grid_x.shape)

# 看一看测试集的分类报告
pred_test_y = model.predict(test_x)
cr = sm.classification_report(
	  	test_y, pred_test_y)
print(cr)

# 绘制这些点
mp.figure('SVM', facecolor='lightgray')
mp.title('SVM', fontsize=16)
mp.xlabel('X', fontsize=14)
mp.ylabel('Y', fontsize=14)
mp.tick_params(labelsize=10)
mp.pcolormesh(grid_x,grid_y,grid_z,cmap='gray')

mp.scatter(x[:,0], x[:,1], s=60, 
		c=y, label='points', cmap='jet')

mp.legend()
mp.show()

如图:分类的效果明显提升,能分离大部分的数据,但是也还不够完美。
在这里插入图片描述

径向基核函数: rbf , 通过高斯分布函数增加原始样本特征的分布概率作为新的特征.

# C: 正则项
# gamma: 正态分布曲线的标准差
model= svm.SVC(
    kernel='rbf', C=600, gamma=0.01)

案例:再来试一下径向基核函数:

# 基于多项式核函数的svm绘制分类边界
model=svm.SVC(kernel='rbf', C=600, gamma=0.01)
model.fit(train_x, train_y)
"""
支持向量机  径向基核函数
"""
import numpy as np
import sklearn.model_selection as ms
import sklearn.svm as svm
import sklearn.metrics as sm
import matplotlib.pyplot as mp

x, y = [],[]
data=np.loadtxt('../ml_data/multiple2.txt', 
	 delimiter=',')
x = data[:, :-1]
y = data[:, -1]
# 拆分训练集与测试集
train_x, test_x, train_y, test_y = \
	ms.train_test_split(x, y, test_size=0.25,
	random_state=5)
# 基于多项式核函数的svm绘制分类边界
model=svm.SVC(kernel='rbf', C=600, gamma=0.01)
model.fit(train_x, train_y)

# 绘制分类边界线
l, r = x[:, 0].min()-1, x[:, 0].max()+1
b, t = x[:, 1].min()-1, x[:, 1].max()+1
n = 500
grid_x, grid_y = np.meshgrid(
	np.linspace(l, r, n),
	np.linspace(b, t, n))
# 把grid_x与grid_y抻平了组成模型的输入,预测输出
mesh_x = np.column_stack(
	(grid_x.ravel(), grid_y.ravel()))
pred_mesh_y = model.predict(mesh_x)
grid_z = pred_mesh_y.reshape(grid_x.shape)

# 看一看测试集的分类报告
pred_test_y = model.predict(test_x)
cr = sm.classification_report(
	  	test_y, pred_test_y)
print(cr)

# 绘制这些点
mp.figure('SVM', facecolor='lightgray')
mp.title('SVM', fontsize=16)
mp.xlabel('X', fontsize=14)
mp.ylabel('Y', fontsize=14)
mp.tick_params(labelsize=10)
mp.pcolormesh(grid_x,grid_y,grid_z,cmap='gray')

mp.scatter(x[:,0], x[:,1], s=60, 
		c=y, label='points', cmap='jet')

mp.legend()
mp.show()

如图所示:完美再升级
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值