R语言knn算法的两种方法：class包与kknn包

最新推荐文章于 2022-01-17 09:33:46 发布

_,_

最新推荐文章于 2022-01-17 09:33:46 发布

阅读量1.5w

点赞数 4

分类专栏： R

本文链接：https://blog.csdn.net/xspyzm/article/details/88927756

版权

R 专栏收录该内容

39 篇文章 13 订阅

订阅专栏

k近邻算法工作原理如下：
1、首先指定“训练”数据集
2、对于一个新的即将被预测分类的观测值，算法试图找到距离这个新的观测值最近的K个观测值，并预测这个新的观测值的类别。
3、新观测值的类别由与其最近的k个观测值类别占比最多的类别决定，作为该新值的类别。
4、不像其它模型，k近邻并没有创建一个模型对象。而是，你需要提供训练数据以及测试数据作为参数。
原文：https://blog.csdn.net/wolfbloodbj/article/details/8842399

class包：

library(class)#载入包
index<-sample(1:nrow(data),round(0.7*nrow(data)))#随机抽取样本
train<-data[index,-5]
test<-data[-index,-5]#划分训练集和测试集
cl<-data[index,5]#设置类别变量，knn基于此变量来投票判断测试集分类结果
k<-3#设置以周围最近的几个点来投票
pre<-knn(train=train,test=test,cl=cl,k=k,pro=T)
table(data[-index,5],pre)#输出分类结果

class包的knn算法似乎针对的数据必须是数值型的，对于有因子型变量的数据会报错。

kknn包：

library(kknn)
index<-sample(1:nrow(data),round(0.7*nrow(data)))
train<-data[index,]
test<-data[-index,]
pre<-kknn(LEAVE~.,train, test, distance = 1,kernel= "triangular")
summary(pre)
fit <- fitted(pre)
t<-table(test$LEAVE, fit)
sum(diag(t))/sum(t)#计算分类准确率

kknn包可以处理带有因子型变量的数据集