K-Means聚类算法基本知识（附Demo）

最新推荐文章于 2024-06-05 19:09:50 发布

码农研究僧

最新推荐文章于 2024-06-05 19:09:50 发布

阅读量387

点赞数 8

分类专栏：深度学习文章标签：算法 kmeans 聚类

本文链接：https://blog.csdn.net/weixin_47872288/article/details/138980876

版权

深度学习专栏收录该内容

25 篇文章 19 订阅

订阅专栏

1. 基本知识

K-Means算法是一种常用的无监督学习算法，旨在将数据集划分为k个簇，使得同一簇内的数据点尽可能接近，而不同簇的数据点尽可能远离

K-Means通过迭代优化质心的位置，最终找到最优的簇划分

K-Means聚类算法的主要步骤如下：

选择k个初始质心：从数据集中随机选择k个点作为初始质心
分配数据点：将每个数据点分配到最近的质心，形成k个簇
更新质心：计算每个簇中所有点的平均值，并将质心更新为该均值
检查收敛条件：如果质心的位置变化小于设定的阈值（tolerance），或者达到最大迭代次数（max_iter），则算法收敛，结束迭代；否则，回到步骤2
重复步骤2-4，直到算法收敛

K-Means算法的目标是最小化所有点到其所属质心的距离总和

在这里插入图片描述

优点	缺点
简单易懂，容易实现	需要预先指定簇的数量k
计算速度快，适合大规模数据集	对初始质心敏感，不同的初始质心可能导致不同的聚类结果
对于球状簇效果较好	容易陷入局部最优，无法保证全局最优
具有较好的可解释性，聚类结果易于理解	只能处理线性可分的簇，对复杂形状的簇效果较差
内存消耗低，对于数据量大但内存有限的情况依然适用	对噪声和异常点敏感，可能会导致质心偏移
可扩展性强，能够应用于增量聚类和大数据处理	不适用于发现非凸形状的簇，聚类结果可能会受到簇形状的影响

为了克服K-Means的缺点，可以采用以下优化方法：

K-Means++初始化：通过一种更加巧妙的方式选择初始质心，以提高聚类结果的稳定性和准确性
多次运行K-Means：运行K-Means多次，每次选择不同的初始质心，最终选择最优的聚类结果
层次聚类结合：先使用层次聚类确定初始质心，再进行K-Means聚类
Elkan’s K-Means：使用三角不等式加速距离计算，提高K-Means的效率

2. Demo

import random
import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial import KDTree

class KMeans:
    def __init__(self, n_clusters=2, tolerance=0.0001, max_iter=300):
        self.n_clusters = n_clusters
        self.tolerance = tolerance
        self.max_iter = max_iter

    def fit(self, data):
        # 初始化质心
        self.centers = data[random.sample(range(data.shape[0]), self.n_clusters)]
        old_centers = np.copy(self.centers)
        
        for iteration in range(self.max_iter):
            # 用KD树来加速最近质心查询
            tree = KDTree(self.centers)
            labels = [[] for _ in range(self.n_clusters)]
            
            # 将每个点分配到最近的质心
            for point in data:
                _, index = tree.query(point)
                labels[index].append(point)
            
            # 更新质心
            for i in range(self.n_clusters):
                if labels[i]:
                    self.centers[i] = np.mean(labels[i], axis=0)
            
            # 检查质心是否收敛
            if np.sum(np.abs(self.centers - old_centers)) < self.tolerance * self.n_clusters:
                break
            old_centers = np.copy(self.centers)
        
        self.fitted = True

    def predict(self, data):
        if not hasattr(self, 'fitted') or not self.fitted:
            raise Exception("Model not fitted yet.")
        
        result = []
        tree = KDTree(self.centers)
        
        for point in data:
            _, index = tree.query(point)
            result.append(index)
        
        return result

# 主函数部分
if __name__ == '__main__':
    # 生成示例数据
    np.random.seed(42)
    data = np.vstack([
        np.random.multivariate_normal([1, 1], [[0.1, 0], [0, 0.1]], 100),
        np.random.multivariate_normal([5, 5], [[0.1, 0], [0, 0.1]], 100)
    ])
    
    # 初始化并拟合模型
    kmeans = KMeans(n_clusters=2)
    kmeans.fit(data)
    
    # 预测数据所属的簇
    predictions = kmeans.predict(data)
    
    # 可视化聚类结果
    colors = np.array(['r', 'g'])
    plt.figure(figsize=(10, 10))
    plt.title("Scatter Plot After K-Means Clustering")
    plt.scatter(data[:, 0], data[:, 1], c=colors[predictions])
    plt.scatter(kmeans.centers[:, 0], kmeans.centers[:, 1], c='b', marker='x', s=100, linewidths=3)
    plt.show()
    
    print("Cluster assignments:", predictions)