R语言 kmeans聚类

原理: 将数据集中的样本划分为若干个通常是不想交的子集,每个子集称为一个“簇”。通过这样的划分,每个簇对英语一些潜在的概念(类别)


1. 基本问题

1)性能度量

对聚类结果评价好坏:簇内相似度高,簇间相似度低


2)距离计算


2.  kmeans 聚类

1)找最优的K值

# cluster.stats函数需要使用fpc库
  library(fpc); library(ggplot2)
  
  K <- 2:10    #  k取2到8评估K
  round <- 30  # --每次迭代30次,避免局部最优
  n <- 100
  g <- 6 
  set.seed(g)
  # 生成数据集
  iris <- data.frame(x = unlist(lapply(1:g, function(i) rnorm(n/g, runif(1)*i^2))), 
                     y = unlist(lapply(1:g, function(i) rnorm(n/g, runif(1)*i^2))))
  
  rst <- sapply(K, function(i){  
      print(paste("K=", i))
      mean(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值