k-means算法详解(python实现) 数据挖掘聚类分析 k均值算法

无心同学

已于 2022-08-18 21:00:41 修改

阅读量6.3k

点赞数 13

分类专栏：数据挖掘文章标签：数据挖掘 python 算法

于 2021-11-06 20:28:24 首次发布

本文链接：https://blog.csdn.net/weixin_46990115/article/details/121184001

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在开始k-means算法之前，我们先了解一下什么是聚类分析？

聚类分析就是将数据划分成有意义或有用的组（簇），根据在数据中发现的描述对象及其关系的信息，将数据对象分组。其目标是，组内的对象相互之间是相似的，而不同组中的对象是不同的。

所以很明确，这个算法是为了分类数据的，一般适用于市场细分、目标顾客定位、生物种群划分等邻域

所以，k-means算法怎么理解呢？

其中的k是聚类算法当中类的个数。 means指的就是均值算法。

 k-means是采用均值算法把数据分成K个类的硬聚类算法！
对于连续型属性具有较好的聚类效果，不适合处理离散型属性。

在这里插入图片描述
以该图为例，进行聚类分析：

1、首先，设定k=2，表示需要聚成两类，随机取两个点作为质心，二者之间的距离就用欧几里得距离，将与质心更近的点归为一类
在这里插入图片描述
2、根据第一次分类的点，求出每个分类的平均点

3、再以每个分类的平均点作为质心，重新进行聚类，重复此过程，直至两次迭代所得的质心点的位置不发生变化即表示分类结束
以下为我的python实现：

import random
import numpy as np

data = [
        [1,4],
        [1,5],
        [2,4],
        [2,5],
        [2,6],
        [4,1],
        [4,2],
        [5,1],
        [5,2],
        [6,2],
    ]
k = 2
# 计算两点之间的距离
def count_dist(x,y):
    result = 0
    for i in range(len(x)):
        result+=(x[i]-y[i])**2
    return result**0.5
# 获取中心点
def get_centerPoint(arr):
    arr = np.array(arr)
    point = []
    # 遍历 第一行数组的个数 也就是列数
    # 计算 每列元素的平均值
    for i in range(len(arr[0,:])): point.append(sum(arr[:,i])/len(arr[:,i]))
    print('point:',point)
    return point

def a(init_points):
    print('init_points:',init_points)
    arr1 = []
    arr2 = []
    for i in range(len(data)):
        item_arr = []
        for i2 in range(k):
            item_arr.append(count_dist(data[i], init_points[i2]))
        max_dist = max(item_arr)
        max_index = item_arr.index(max_dist)
        # 如果最大的index是0，说明离第二个点更近
        arr2.append(data[i]) if max_index == 0 else arr1.append(data[i])
    point_arr = [get_centerPoint(arr1),get_centerPoint(arr2)]
    # 为什么[[4.8, 1.6], [1.6, 4.8]]会输出两次，因为第一次输出与init_points对比，第一次对比肯定是不同的
    # 第二次point_arr和init_points都是[[4.8, 1.6], [1.6, 4.8]]，所以会再输出一次
    print('point_arr:',point_arr)
    for i in range(len(point_arr)):
        # print(point_arr,init_points,i)
        if point_arr[i] != init_points[i]:
            a(point_arr)
            break


if __name__ == '__main__':

    init_points = []
    # 随机选取k个样本作为初始值
    data_copy = data[:]
    for i in range(k):
        random_index = random.randint(0, len(data_copy) - 1)
        init_points.append(data_copy[random_index])
        # 选过之后，把这个元素弹出，防止重复
        data_copy.pop(random_index)

    a(init_points)

跑一遍代码发现，结果正是我们想要的在这里插入图片描述

k-means的优缺点：

优点：

1.思想简单易行
2.时间复杂度接近线性
3.对大数据集，具有高效性和可伸缩性

缺点：

1.依赖于初始均值的选择
2.须事先给定聚类数k值
3.对噪声和孤立数据敏感

无心同学

关注

13
点赞
踩
45

收藏

觉得还不错? 一键收藏
打赏
4
评论
k-means算法详解(python实现) 数据挖掘聚类分析 k均值算法

在开始k-means算法之前，我们先了解一下什么是聚类分析？聚类分析就是将数据划分成有意义或有用的组（簇），根据在数据中发现的描述对象及其关系的信息，将数据对象分组。其目标是，组内的对象相互之间是相似的，而不同组中的对象是不同的。所以很明确，这个算法是为了分类数据的，一般适用于市场细分、目标顾客定位、生物种群划分等邻域所以，k-means算法怎么理解呢？其中的k是聚类算法当中类的个数。 means指的就是均值算法。 k-means是采用均值算法把数据分成K个类的硬聚类算法！对于连续型属性
复制链接

扫一扫