r语言kmeans聚类(真实案例完整流程)

10 篇文章 46 订阅

K-means介绍

k-means算法简介:

K-means算法是IEEE 2006年ICDM评选出的数据挖掘的十大算法中排名第二的算法,排名仅次于C4.5算法。K-means算法的思想很简单,简单来讲就是对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大,两个对象之间的距离越近,相似性越高。聚类的结果就是使类内部的同质性高,而类之间的异质性高。

k-means算法的具体工作流程如下:

step1:导入一组具有n个对象的数据集,给出聚类个数k;
step2:从n个对象中随机取出k个作为初始聚类中心;
step3:根据欧几里得距离来判断相似度量,确定每个对象数据哪个簇;
step4:计算并更新每个簇中对象的平均值,并将其定为每个簇的新的聚类中心;
step5:计算出准则函数E;
step6:循环step3,step4,step5直到准则函数E在允许的误差范围内;

k-means算法的几个主要特点:

  • 发现球形互斥的簇:由于K-means算法一般是以欧几里得距离作为相似性度量指标,所以K-means算法对于球形互斥的簇的聚类效果会比较好;
  • 对低维数据集效果较好:同样的数据量,维度越高,数据矩阵越稀疏,当数据维度比较高时,数据矩阵是一个稀疏矩阵,K-means算法稀疏矩阵数据聚类效果不佳;
  • 容易陷入局部最优:对于K-means算法来说,初始聚类中心的确定十分重要,因为不同的聚类中心会使算法沿着不同的路径搜索最优聚类结果,不过对于陷入局部最优这个问题可以从初始聚类中心的选择来进行改进。

R语言编程实现:

##### 案例数据 #########
setwd("E:/data")
data_model <- read.csv("data.csv",header = T)
data_model_1 <- data_model[,1:4]
head(data_model_1)

这里写图片描述

######## 数据查看 ###############
dim(data_model_1)
str(data_model_1)
summary(data_model_1)

这里写图片描述

# y~V1-Vn数据相关性探索
(data_cor <- cor(data_model_1))   

library(car)
scatterplotMatrix(data_model_1)   

这里写图片描述

相关关系不是特别明显,进行量化表现:

library(corrplot)
corrplot(corr = data_cor, method = 'color', addCoef.col="grey") 

这里写图片描述

可以明显看出y和V1、V2呈负相关关系,系数分别为-0.15及-0.07,y和V3呈正相关关系,且系数较高为0.22。

K-means模型训练

data <- data_model_1[,2:4]

定义kmeans聚类函数My_Kmeans

#默认的最大迭代次数为10
My_kmeans <- function(data,k,max.iter=10){
  
  rows <- nrow(data) 
  cols <- ncol(data) 
  
  within <- matrix(0,nrow=k,ncol=1) 
  between <- 0
  iter = 0
  
  #定义indexMatrix矩阵,第一列为每个数据所在的类,第二列为每个数据到其类中心的距离
  indexMatrix <- matrix(0,nrow=rows,ncol=2) 
  
  centers <- matrix(0,nrow=k,ncol=cols) 
  randSeveralInteger <- as.vector(sample(1:rows,size=k))
  #通过生成随机数的方式,得到初始的聚类中心
  for(i in 1:k){
    indexMatrix[randSeveralInteger[i],1] <- i
    centers[i,] <- data[randSeveralInteger[i],]
    centers <- matrix(centers,k,cols)
  }
  changed = TRUE 
  
  while(changed){ 
    
    if(iter >= max.iter)
      break
    
    changed=FALSE
    
    #对每一个数据,计算其到各个类中心的距离,并将其划分到距离最近的类
    for(i in 1:rows){ 
      initialDistance <- 10000 
      previousCluster <- indexMatrix[i,1]
      
      #遍历所有的类,将该数据划分到距离最近的类
      for(j in 1:k){ 
        currentDistance <- (sum((data[i,]-centers[j,])^2))^0.5
        if(currentDistance < initialDistance){
           initialDistance <- currentDistance 
           indexMatrix[i,1] <- j 
           indexMatrix[i,2] <- currentDistance 
      } 
    }
    
    #如果该数据所属的类发生了变化,则将changed设为TRUE,算法继续
    if(previousCluster!=indexMatrix[i,1]) 
      changed=TRUE
  }
  
  #重新计算类中心
  for(m in 1:k){
    clusterMatrix <- data[indexMatrix[,1]==m,] 
    clusterMatrix <- as.matrix(clusterMatrix)
    if(nrow(clusterMatrix)>0){ 
      centers[m,] <- colMeans(clusterMatrix) 
    } 
    else{
      centers[m,] <- centers[m,] 
    }    
  }
  iter = (iter+1)
}

参数注释:

  • data:表示待聚类的数据
  • k:要聚类的数目
  • max.iter:聚类的最大迭代次数,默认值是10
  • cluster:聚类的结果,也就是每个对象所属的类
  • tot.withinss:聚类的总的类内平方和,用来衡量类内差异
  • betweenss:聚类的类间平方和,用来衡量类间差异

原始数据标准化

min.max.norm <- function(x){
  ((x-min(x))/(max(x)-min(x)))
}

data <- apply(data,2,min.max.norm)

确定最优K

# k取2到8,评估K
library(fpc) 
K <- 2:8
round <- 10 # 每次迭代10次,避免局部最优
rst <- sapply(K, function(i){
  print(paste("K=",i))
  mean(sapply(1:round,function(r){
    print(paste("Round",r))
    result <- My_kmeans(data, i)
    stats <- cluster.stats(dist(data), result$cluster)
    stats$avg.silwidth
  }))
})

# 可以看到如下的示意图
plot(K,rst,type='l',main='轮廓系数与K的关系', ylab='轮廓系数')    #轮廓系数越大越好

这里写图片描述

可以看出,当K=3时,轮廓系数最大,因此我们取K=3。

实际数据检验函数

result <- My_kmeans(data,k=3) #进行聚类
result$cluster
result$tot.withinss
result$betweenss
result$iteration

聚类结果可视化

plot(data_model$V1,data_model$V3,col=result$cluster,main="My_kmeansClustering",pch=19)

这里写图片描述

聚类结果导出

result_output <- data.frame(data_model[,1:4],result$cluster)

write.csv(result_output,file="result_output.csv",row.names=T,quote=F)

三个分群的概率密度函数图

Data1 <- data_model[,2:4][which(result_output$result.cluster==1),]
Data2 <- data_model[,2:4][which(result_output$result.cluster==2),]
Data3 <- data_model[,2:4][which(result_output$result.cluster==3),]

opar <- par(no.readonly = TRUE)  #复制一份单签的图形参数
png("kmean.png")
par(mfrow = c(3,3))
plot(density(Data1[,1]),col="red",main="R")
plot(density(Data1[,2]),col="red",main="F")
plot(density(Data1[,3]),col="red",main="M")
plot(density(Data2[,1]),col="red",main="R")
plot(density(Data2[,2]),col="red",main="F")
plot(density(Data2[,3]),col="red",main="M")
plot(density(Data3[,1]),col="red",main="R")
plot(density(Data3[,2]),col="red",main="F")
plot(density(Data3[,3]),col="red",main="M")
par(opar)

这里写图片描述

  • 69
    点赞
  • 491
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 43
    评论
评论 43
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

data大柳

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值