KNN与SVM、朴素贝叶斯、决策树的比较

最新推荐文章于 2022-12-10 12:13:31 发布

喜欢大海的CC

最新推荐文章于 2022-12-10 12:13:31 发布

阅读量4.9k

点赞数 1

分类专栏：数据分析文章标签：机器学习数据挖掘 python

本文链接：https://blog.csdn.net/weixin_45145550/article/details/112752670

版权

数据分析专栏收录该内容

8 篇文章 4 订阅

订阅专栏

（一）KNN算法

“近朱者赤，近墨者黑”可以说是 KNN 的工作原理。整个计算过程分为三步：
1、计算待分类物体与其他物体之间的距离；
2、统计距离最近的 K 个邻居；
3、对于 K 个最近的邻居，它们属于哪个分类最多，待分类物体就属于哪一类。

K值的选择至关重要，K值太小，容易过拟合；K值太大，容易欠拟合。所以 K 值应该是个实践出来的结果，并不是我们事先而定的。在工程上，我们一般采用交叉验证的方式选取 K 值。

计算距离
在 KNN 算法中，还有一个重要的计算就是关于距离的度量。两个样本点之间的距离代表了这两个样本之间的相似度。距离越大，差异性越大；距离越小，相似度越大。关于距离的计算方式有下面五种方式：
1、欧氏距离；
2、曼哈顿距离；
3、闵可夫斯基距离；
4、切比雪夫距离；
5、余弦距离。

KD树——为了减少计算距离次数，提升 KNN 的搜索效率，人们提出了 KD 树（K-Dimensional 的缩写）。KD 树是对数据点在 K 维空间中划分的一种数据结构。在 KD 树的构造中，每个节点都是 k 维数值点的二叉树。既然是二叉树，就可以采用二叉树的增删改查操作，这样就大大提升了搜索效率。

也可以用 KNN 进行回归，通过 K 个邻居对新的点的属性进行值的预测。

（二）KNN与SVM、朴素贝叶斯、决策树的比较

实例：通过sklearn 中自带的手写数字数据集进行手写数字识别

需要注意：我们在做多项式朴素贝叶斯分类的时候，传入的数据不能有负数。因为 Z-Score 会将数值规范化为一个标准的正态分布，即均值为 0，方差为 1，数值会包含负数。因此我们需要采用 Min-Max 规范化，将数据规范化到[0,1]范围内。

from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_digits
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt

# 加载数据
digits = load_digits()
data = digits.data
# 分割数据，将25%的数据作为测试集，其余作为训练集（你也可以指定其他比例的数据作为训练集）
train_x, test_x, train_y, test_y = train_test_split(data, digits.target, test_size=0.25, random_state=33)
# 采用Z-Score规范化
ss = preprocessing.StandardScaler()
train_ss_x = ss.fit_transform(train_x)
test_ss_x = ss.transform(test_x)
# 采用Min-Max规范化
mm = preprocessing.MinMaxScaler()
train_mm_x = mm.fit_transform(train_x)
test_mm_x = mm.transform(test_x)

# 创建KNN分类器
knn = KNeighborsClassifier() 
knn.fit(train_ss_x, train_y) 
predict_y = knn.predict(test_ss_x) 
print("KNN准确率: %.4lf" % accuracy_score(test_y, predict_y))

# 创建SVM分类器
svm = SVC()
svm.fit(train_ss_x, train_y)
predict_y=svm.predict(test_ss_x)
print('SVM准确率: %0.4lf' % accuracy_score(test_y, predict_y))

# 创建Naive Bayes分类器
mnb = MultinomialNB()
mnb.fit(train_mm_x, train_y)
predict_y = mnb.predict(test_mm_x) 
print("多项式朴素贝叶斯准确率: %.4lf" % accuracy_score(test_y, predict_y))

# 创建CART决策树分类器
dtc = DecisionTreeClassifier()
dtc.fit(train_mm_x, train_y) 
predict_y = dtc.predict(test_mm_x) 
print("CART决策树准确率: %.4lf" % accuracy_score(test_y, predict_y))

运行结果：

KNN准确率: 0.9756
SVM准确率: 0.9867
多项式朴素贝叶斯准确率: 0.8844
CART决策树准确率: 0.8600

得出结论：
在这里插入图片描述

喜欢大海的CC

关注

1
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录