不足20行 python 代码,高效实现 k-means 均值聚类算法

scikti-learn 将机器学习分为4个领域,分别是分类(classification)、聚类(clustering)、回归(regression)和降维(dimensionality reduction)。k-means均值算法虽然是聚类算法中比较简单的一种,却包含了丰富的思想内容,非常适合作为初学者的入门习题。

在这里插入图片描述
关于 k-means 均值聚类算法的原理介绍、实现代码,网上有很多,但运行效率似乎都有点问题。今天稍微有点空闲,写了一个不足20行的 k-means 均值聚类算法,1万个样本平均耗时20毫秒(10次均值)。同样的数据样本,网上流行的算法平均耗时3000毫秒(10次均值)。差距竟然达百倍以上,令我深感意外,不由得再次向 numpy 献上膝盖!

在这里插入图片描述
以下是我的代码,包含注释、空行总共25行,有效代码15行。

import numpy as np

def kmeans_xufive(ds, k):
    """k-means聚类算法
    
    k       - 指定分簇数量
    ds      - ndarray(m, n),m个样本的数据集,每个样本n个属性值
    """
    
    m, n = ds.shape # m:样本数量,n:每个样本的属性值个数
    result = np.empty(m, dtype=np.int) # m个样本的聚类结果
    cores = ds[np.random.choice(np.arange(m), k, replace=False)] # 从m个数据样本中不重复地随机选择k个样本作为质心
    
    while True: # 迭代计算
        d = np.square(np.repeat(ds, k, axis=0).reshape(m, k, n) - cores)
        distance = np.sqrt(np.sum(d, axis=2)) # ndarray(m, k),每个样本距离k个质心的距离,共有m行
        index_min = np.argmin(distance, axis=1) # 每个样本距离最近的质心索引序号
        
        if (index_min == result).all(): # 如果样本聚类没有改变
            return result, cores # 则返回聚类结果和质心数据
        
        result[:] = index_min # 重新分类
        for i in range(k): # 遍历质心集
            items = ds[result==i] # 找出对应当前质心的子样本集
            cores[i] = np.mean(items, axis=0) # 以子样本集的均值作为当前质心的位置

这是网上比较流行的 k-means 均值聚类算法代码,包含注释、空行总共57行,有效代码37行。

import numpy as np

# 加载数据
def loadDataSet(fileName):
    data = np.loadtxt(fileName,delimiter='\t')
    return data
 
# 欧氏距离计算
def distEclud(x,y):
    return np.sqrt(np.sum((x-y)**2))  # 计算欧氏距离
 
# 为给定数据集构建一个包含K个随机质心的集合
def randCent(dataSet,k):
    m,n = dataSet.shape
    centroids = np.zeros((k,n))
    for i in range(k):
        index = int(np.random.uniform(0,m)) #
        centroids[i,:] = dataSet[index,:]
    return centroids
 
# k均值聚类
def kmeans_open(dataSet,k):
 
    m = np.shape(dataSet)[0]  #行的数目
    # 第一列存样本属于哪一簇
    # 第二列存样本的到簇的中心点的误差
    clusterAssment = np.mat(np.zeros((m,2)))
    clusterChange = True
 
    # 第1步 初始化centroids
    centroids = randCent(dataSet,k)
    while clusterChange:
        clusterChange = False
 
        # 遍历所有的样本(行数)
        for i in range(m):
            minDist = 100000.0
            minIndex = -1
 
            # 遍历所有的质心
            #第2步 找出最近的质心
            for j in range(k):
                # 计算该样本到质心的欧式距离
                distance = distEclud(centroids[j,:],dataSet[i,:])
                if distance < minDist:
                    minDist = distance
                    minIndex = j
            # 第 3 步:更新每一行样本所属的簇
            if clusterAssment[i,0] != minIndex:
                clusterChange = True
                clusterAssment[i,:] = minIndex,minDist**2
        #第 4 步:更新质心
        for j in range(k):
            pointsInCluster = dataSet[np.nonzero(clusterAssment[:,0].A == j)[0]]  # 获取簇类所有的点
            centroids[j,:] = np.mean(pointsInCluster,axis=0)   # 对矩阵的行求均值
 
    return clusterAssment.A[:,0], centroids

函数create_data_set(),用于生成测试数据。可变参数 cores 是多个三元组,每一个三元组分别是质心的x坐标、y坐标和对应该质心的数据点的数量。

def create_data_set(*cores):
    """生成k-means聚类测试用数据集"""
    
    ds = list()
    for x0, y0, z0 in cores:
        x = np.random.normal(x0, 0.1+np.random.random()/3, z0)
        y = np.random.normal(y0, 0.1+np.random.random()/3, z0)
        ds.append(np.stack((x,y), axis=1))
    
    return np.vstack(ds)

测试代码如下:

import time
import matplotlib.pyplot as plt

k = 4
ds = create_data_set((0,0,2500), (0,2,2500), (2,0,2500), (2,2,2500))

t0 = time.time()
result, cores = kmeans_xufive(ds, k)
t = time.time() - t0

plt.scatter(ds[:,0], ds[:,1], s=1, c=result.astype(np.int))
plt.scatter(cores[:,0], cores[:,1], marker='x', c=np.arange(k))
plt.show()

print(u'使用kmeans_xufive算法,1万个样本点,耗时%f0.3秒'%t)

t0 = time.time()
result, cores = kmeans_open(ds, k)
t = time.time() - t0

plt.scatter(ds[:,0], ds[:,1], s=1, c=result.astype(np.int))
plt.scatter(cores[:,0], cores[:,1], marker='x', c=np.arange(k))
plt.show()

print(u'使用kmeans_open算法,1万个样本点,耗时%f0.3秒'%t)

测试结果如下:

PS D:\XufiveGit\CSDN\code> py -3 .\k-means.py
使用kmeans_xufive算法,1万个样本点,耗时0.0156550.3秒
使用kmeans_open算法,1万个样本点,耗时3.9990890.3秒

效果如下:
在这里插入图片描述

后记

近期有很多朋友通过私信咨询有关python学习问题。为便于交流,我在CSDN的app上创建了一个小组,名为“python作业辅导小组”,面向python初学者,为大家提供咨询服务、辅导python作业。欢迎有兴趣的同学扫码加入。

在这里插入图片描述

CSDN 不止为我们提供了这样一个交流平台,还经常推出各类技术交流活动。近期我将在 GeekTalk 栏目,和 Python 新手共同探讨如何快速成长为基础扎实、功力强大的程序员。CSDN 还为这个活动提供了一些纪念品。如果有兴趣,请扫码加入,或者直接点此进入

在这里插入图片描述

  • 24
    点赞
  • 80
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 25
    评论
### 回答1: K-means聚类算法是一种常用的聚类算法Python可以使用sklearn库中的KMeans类来实现该算法。下面是一个简单的Python代码示例:from sklearn.cluster import KMeans# 创建KMeans模型 kmeans = KMeans(n_clusters=3, random_state=0)# 训练模型 kmeans.fit(data)# 预测结果 labels = kmeans.predict(data) ### 回答2: K-means聚类算法是一种常用的无监督学习算法,用于将样本数据分成K个不同的类簇。下面是一个用Python实现的简单K-means聚类算法示例: ``` import numpy as np # 定义K-means聚类算法函数 def k_means(data, k, max_iter=100): # 随机选择k个初始中心点 centers = np.random.choice(len(data), k, replace=False) labels = np.zeros(len(data)) for _ in range(max_iter): # 计算每个样本距离最近的中心点 for i, sample in enumerate(data): min_dist = float('inf') for j, center in enumerate(centers): dist = np.linalg.norm(sample - data[center]) if dist < min_dist: min_dist = dist labels[i] = j # 更新中心点 new_centers = [] for i in range(k): cluster_samples = [data[j] for j in range(len(data)) if labels[j] == i] new_center = np.mean(cluster_samples, axis=0) new_centers.append(new_center) # 如果中心点不再变化,停止迭代 if np.array_equal(centers, new_centers): break centers = new_centers return labels # 示例数据 data = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]]) # 调用K-means聚类算法 labels = k_means(data, k=2) print("聚类结果:", labels) ``` 以上代码实现了一个简单的K-means聚类算法,并应用于一个二维数据集。函数`k_means`接受三个参数:`data`表示输入的数据集,`k`表示聚类的类别数,`max_iter`表示最大迭代次数(默认为100)。函数的输出是一个数组`labels`,表示每个数据点所属的类别。 在示例数据中,根据设置的`k=2`进聚类,最终输出每个数据点所属的类别。 ### 回答3: k-means聚类算法是一种常用的聚类方法,其原理是将数据集划分为k个簇,每个簇内的数据点与该簇的质心距离最小。以下是一个简单的k-means聚类算法Python代码示例: ```python import numpy as np def kmeans(X, k, max_iters=100): # 随机初始化k个质心 centroids = X[np.random.choice(range(len(X)), k, replace=False)] for _ in range(max_iters): # 计算每个样本点到质心的距离,并分配到最近的簇 distances = np.linalg.norm(X[:, np.newaxis] - centroids, axis=2) labels = np.argmin(distances, axis=1) # 更新质心位置为簇内样本点的均值 for i in range(k): centroids[i] = np.mean(X[labels == i], axis=0) return labels, centroids # 示例数据集 X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]]) # 调用k-means算法进聚类,设定k=2 labels, centroids = kmeans(X, k=2) # 打印聚类结果 print(labels) # 打印每个样本点所属的簇 print(centroids) # 打印最终的质心位置 ``` 上述代码中,首先随机初始化k个质心,然后循环迭代求解每个样本点与质心的距离,并将其分配到最近的簇。然后,更新每个簇内样本点的均值作为新的质心位置,迭代直至满足最大迭代次数。最后,返回每个样本点所属的簇和最终的质心位置。在上述示例中,我们使用了一个简单的二维数据集,并设定k=2进聚类。最后的聚类结果为两个子簇的标签(0或1)以及对应的质心位置。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 25
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天元浪子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值