线性判别准则（LDA）与线性分类编程（SVM）实践

最新推荐文章于 2023-04-13 09:39:13 发布

YouthBlood9

最新推荐文章于 2023-04-13 09:39:13 发布

阅读量807

点赞数

分类专栏：人工智能与机器学习文章标签：机器学习 python svm

本文链接：https://blog.csdn.net/youthblood9/article/details/121096113

版权

嘿！我是目录

一、内容提示

学习线性判别准则（LDA）和线性分类算法（支持向量机,SVM）。采用Sklearn库
1、编程生成模拟数据集，进行LDA算法练习；
2、对月亮数据集进行SVM分类，分别采用线性核、多项式核和高斯核以及不同的参数（比如惩罚系数C），对比分析结果。

二、线性判别准则（LDA）

2.1 LDA简介

线性判别分析（Linear Discriminant Analysis，简称LDA）: 是一种经典的有监督数据降维方法。LDA的主要思想是将一个高维空间中的数据投影到一个较低维的空间中，且投影后要保证各个类别的类内方差小而类间均值差别大，这意味着同一类的高维数据投影到低维空间后相同类别的聚在一起，而不同类别之间相距较远。如下图将二维数据投影到一维直线上：
在这里插入图片描述

上图提供了两种方式，哪一种投影方式更好呢？从图上可以直观的看出右边的比左边的投影后分类的效果好，因此右边的投影方式是一种更好地降维方式。

2.2 LDA实现代码

此处采用随机数据集训练并进行训练

# 导入要使用的包
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as lda#导入LDA算法
from sklearn.datasets._samples_generator import make_classification #导入分类生成器
import matplotlib.pyplot as plt #导入画图用的工具
import numpy as np
import pandas as pd


# 获得数据集并进行训练，用上面导入的make_classification函数获得数据集，里面的参数含义参考备注
x,y=make_classification(n_samples=500,n_features=2,n_redundant=0,n_classes=2,n_informative=1,n_clusters_per_class=1,class_sep=0.5,random_state=100)
"""
n_features :特征个数= n_informative（） + n_redundant + n_repeated
n_informative：多信息特征的个数
n_redundant：冗余信息，informative特征的随机线性组合
n_repeated ：重复信息，随机提取n_informative和n_redundant 特征
n_classes：分类类别
n_clusters_per_class ：某一个类别是由几个cluster构成的

"""
plt.scatter(x[:,0],x[:,1], marker='o', c=y)
plt.show()
x_train=x[:60, :60]
y_train=y[:60]
x_test=x[40:, :]
y_test=y[40:]

输出结果显示

将数据集分为训练集和测试集，分类比为6：4，训练完之后利用测试集获得准确率
续写代码：

#分为训练集和测试集，进行模型训练并测试
x_train=x[:300, :300]
y_train=y[:300]
x_test=x[200:, :]
y_test=y[200:]
lda_test=lda()
lda_test.fit(x_train,y_train)
predict_y=lda_test.predict(x_test)#获取预测的结果
count=0
for i in range(len(predict_y)):
    if predict_y[i]==y_test[i]:
        count+=1
print("预测准确个数为"+str(count))
print("准确率为"+str(count/len(predict_y)))

输出结果显示：

三、SVM

3.1 SVM简介

支持向量机（support vector machines, SVM） ：是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。

3.2 SVM原理

SVM算法原理建议去看：支持向量机（SVM）——原理篇
在这里插入图片描述

四、SVM数据集进行可视化分类

4.1 月亮数据集

4.1.1 线性SVM

代码实现：

# 导入月亮数据集和svm方法
#这是线性svm
from sklearn import datasets #导入数据集
from sklearn.svm import LinearSVC #导入线性svm
from matplotlib.colors import ListedColormap
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt #导入画图用的工具


# 获得数据集
data_x,data_y=datasets.make_moons(noise=0.15,random_state=777)#生成月亮数据集
# random_state是随机种子，nosie是方
plt.scatter(data_x[data_y==0,0],data_x[data_y==0,1])
plt.scatter(data_x[data_y==1,0],data_x[data_y==1,1])
data_x=data_x[data_y<2,:2]#只取data_y小于2的类别，并且只取前两个特征
plt.show()

输出显示：
在这里插入图片描述

续写代码：

#进行标准化并训练数据
scaler=StandardScaler()# 标准化
scaler.fit(data_x)#计算训练数据的均值和方差
data_x=scaler.transform(data_x) #再用scaler中的均值和方差来转换X，使X标准化
liner_svc=LinearSVC(C=1e9,max_iter=100000)#线性svm分类器,iter是迭达次数，c值决定的是容错，c越大，容错越小
liner_svc.fit(data_x,data_y)


# 边界绘制函数，为下面可视化分类做准备
def plot_decision_boundary(model,axis):
    x0,x1=np.meshgrid(
        np.linspace(axis[0],axis[1],int

最低0.47元/天解锁文章