python实现Kmeans

最新推荐文章于 2023-02-23 21:07:09 发布

xddwz

最新推荐文章于 2023-02-23 21:07:09 发布

阅读量197

点赞数

分类专栏：算法 python 文章标签：聚类算法 python

本文链接：https://blog.csdn.net/xddwz/article/details/113566919

版权

python 同时被 2 个专栏收录

100 篇文章 4 订阅

订阅专栏

算法

57 篇文章 12 订阅

订阅专栏

代码：

import numpy as np
import random
from math import sqrt


def dist(arr1, arr2):
    return sqrt(np.sum(arr1 - arr2) ** 2)

def random_center(dataset, k):
    """
    随机生成初始的聚类中心，dataset的每一行是一个样本
    :param dataset:
    :param k: 聚类中心的个数
    :return:
    """
    number_cols = dataset.shape[1]
    centers = np.mat(np.zeros([k, number_cols]))

    for i in range(number_cols):
        min_value = np.min(dataset[:, i])
        max_value = np.max(dataset[:, i])
        centers[:, i] = min_value + (max_value - min_value) * np.random.random([k, 1])
    return centers


def kmeans(dataset, k):
    centers = random_center(dataset, k)       # 生成初始的聚类中心
    num_data = dataset.shape[0]               # 数据的个数

    # 保存每个样本的聚类情况，第一列表示该样本属于某一类，第二列是与该类聚类中心的距离
    clusterAssment = np.mat(np.zeros((num_data, 2)))
    cluster_changed = True    # 控制聚类算法迭代停止的标志，当聚类中心不在改变时停止
    while cluster_changed:
        cluster_changed = False
        for i in range(num_data):
            min_dist = np.inf    # 初始化最小的距离
            min_index = -1       # 初始化属于某一类
            for j in range(k):
                dist_j = dist(dataset[i, :], centers[j, :])

                if dist_j < min_dist:
                    min_dist = dist_j
                    min_index = j
            if clusterAssment[i, 0] != min_index:
                cluster_changed = True
            clusterAssment[i, :] = min_index, min_dist ** 2
        # 更新聚类中心
        for cent in range(k):
            data_cent = dataset[np.nonzero(clusterAssment[:, 0].A == cent)[0]]    # .A表示将矩阵转化为数组
            centers[cent, :] = np.mean(data_cent, axis=0)
    return centers, clusterAssment


dataset = np.random.randint(1, 20, [20, 5])

centers, clusterAssment = kmeans(dataset, 3)

xddwz

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python实现Kmeans

代码：import numpy as npimport randomfrom math import sqrtdef dist(arr1, arr2): return sqrt(np.sum(arr1 - arr2) ** 2)def random_center(dataset, k): """ 随机生成初始的聚类中心，dataset的每一行是一个样本 :param dataset: :param k: 聚类中心的个数 :return:
复制链接

扫一扫

专栏目录