python机器学习：K-means聚类算法

最新推荐文章于 2024-08-11 16:00:02 发布

「已注销」

最新推荐文章于 2024-08-11 16:00:02 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/zztingfeng/article/details/80461861

版权

本文全面概述K-means算法，包括其执行流程、伪代码、Python实现及sklearn库的使用。通过理解算法原理并演示实际应用，帮助读者深入掌握机器学习中的K-means聚类。

摘要由CSDN通过智能技术生成

为了更好构建关于机器学习的整体架构，多快好省的学好机器学习，计划提纲挈领的总结一遍，从算法的执行流程、伪代码流程构建、python代码实现、调用sklearn机器学习库相关函数实现功能等方面论述，以便以后自己复习和备查，下面先从k-means算法开始。
一、K-means算法流程
首先，随机确定k个初始点作为质心，然后为数据集中的每一个点找距其最近的质心，将其分配给该质心对应的簇，最后，更新每个簇的质心，新的质心为所有点的平均值。
二、伪代码流程构建

创建k个点为起始质心
当任意一个点的簇分配结果发生改变时
	对数据集中的每一个数据点
		每一个质心
			计算质心与数据点之间的距离
		将数据点分配到距离其最近的簇
对每一个簇，计算簇中所有点的均值并将其均值作为质心

三、python代码实现

import numpy as np
from sklearn import datasets

def prepare_data(data):
    region = np.zeros((2, data.shape[1]))
    region[0, :] = np.min(data, axis=0)
    region[1, :] = np.max(data, axis=0)
    return region
    
def initial_centers(region, num_centers):
    center_raw = np.random.rand(num_centers, region.shape[1])
    interval = region[1, :] - region[0, :]
    inter_mat = np.repeat(np.expand_dims(interval, axis=0), num_centers, axis=0)
    min