kmeans及其python实现

最新推荐文章于 2024-08-11 16:00:02 发布

佛系调参

最新推荐文章于 2024-08-11 16:00:02 发布

阅读量549

点赞数 1

分类专栏：机器学习 Python

本文链接：https://blog.csdn.net/yzy__zju/article/details/99892249

版权

Python 同时被 2 个专栏收录

75 篇文章 1 订阅

订阅专栏

机器学习

9 篇文章 0 订阅

订阅专栏

k-means算法的基础是最小误差平方和准则，代价函数是：

式中 uc(i) 是第c族的质心坐标（均值）

伪代码如下：

创建k个点作为初始的质心点（随机选择）

当任意一个点的簇分配结果发生改变时：

对数据集中的每一个数据点：

对每一个质心：

计算质心与数据点的距离

将数据点分配到距离某质心最近的簇

对每一个簇，计算簇中所有点的均值，并将均值作为质心

代码如下：

import numpy as np
 
# 加载数据
def loadDataSet(fileName):
    data = np.loadtxt(fileName,delimiter='\t')
    return data
 
# 欧氏距离计算
def distEclud(x,y):
    return np.sqrt(np.sum((x-y)**2))  # 计算欧氏距离
 
# 从数据集中随机选择k个点作为质心centroid初始值
def randCent(dataSet,k):
    m,n = dataSet.shape
    centroids = np.zeros((k,n))
    for i in range(k):
        index = int(np.random.uniform(0,m)) 
        centroids[i,:] = dataSet[index,:]
    return centroids
 
# k均值聚类主函数
def KMeans(dataSet,k):
    m = dataSet.shape[0]  #行的数目
    # 第一列存样本属于哪一簇,第二列存样本的到簇的中心点的误差
    clusterAssment = np.mat(np.zeros((m,2)))
    #np.mat()和np.array()功能类似，前者是矩阵，后者是数组
    #将矩阵转化为数组直接在矩阵后加.A即可，见下面

    clusterChange = True   #迭代是否终止
 
    # 第1步 初始化centroids
    centroids = randCent(dataSet,k)

    while clusterChange:
        clusterChange = False
 
        # 遍历所有的样本（行数）
        for i in range(m):
            minDist = float('inf')
            minIndex = -1
 
            # 遍历所有的质心
            #第2步 找出最近的质心
            for j in range(k):
                # 计算该样本到质心的欧式距离
                distance = distEclud(centroids[j,:],dataSet[i,:])
                if distance < minDist:
                    minDist = distance
                    minIndex = j
            # 第 3 步：更新每一个样本所属的簇
            if clusterAssment[i,0] != minIndex:
                clusterChange = True
                clusterAssment[i,:] = minIndex,minDist**2

        #第 4 步：所有样本遍历完之后，更新质心
        for j in range(k):
            pointsInCluster = dataSet[np.nonzero(clusterAssment[:,0].A == j)[0]]  # 获取簇类所有的点
            centroids[j,:] = np.mean(pointsInCluster,axis=0)   # 对矩阵的行求均值，作为质心的最新坐标

    return centroids,clusterAssment

参考：

https://www.cnblogs.com/ahu-lichang/p/7161613.html