k-means算法详解(python实现) 数据挖掘 聚类分析 k均值算法

在开始k-means算法之前,我们先了解一下什么是聚类分析?

聚类分析就是将数据划分成有意义或有用的组(簇),根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的。

所以很明确,这个算法是为了分类数据的,一般适用于市场细分、目标顾客定位、生物种群划分等邻域

所以,k-means算法怎么理解呢?

其中的k是聚类算法当中类的个数。 means指的就是均值算法。

 k-means是采用均值算法把数据分成K个类的硬聚类算法!
对于连续型属性具有较好的聚类效果,不适合处理离散型属性。

在这里插入图片描述
以该图为例,进行聚类分析:

1、首先,设定k=2,表示需要聚成两类,随机取两个点作为质心,二者之间的距离就用欧几里得距离,将与质心更近的点归为一类
在这里插入图片描述
2、根据第一次分类的点,求出每个分类的平均点
在这里插入图片描述
3、再以每个分类的平均点作为质心,重新进行聚类,重复此过程,直至两次迭代所得的质心点的位置不发生变化即表示分类结束在这里插入图片描述
以下为我的python实现:

import random
import numpy as np

data = [
        [1,4],
        [1,5],
        [2,4],
        [2,5],
        [2,6],
        [4,1],
        [4,2],
        [5,1],
        [5,2],
        [6,2],
    ]
k = 2
# 计算两点之间的距离
def count_dist(x,y):
    result = 0
    for i in range(len(x)):
        result+=(x[i]-y[i])**2
    return result**0.5
# 获取中心点
def get_centerPoint(arr):
    arr = np.array(arr)
    point = []
    # 遍历 第一行数组的个数 也就是列数
    # 计算 每列元素的平均值
    for i in range(len(arr[0,:])): point.append(sum(arr[:,i])/len(arr[:,i]))
    print('point:',point)
    return point

def a(init_points):
    print('init_points:',init_points)
    arr1 = []
    arr2 = []
    for i in range(len(data)):
        item_arr = []
        for i2 in range(k):
            item_arr.append(count_dist(data[i], init_points[i2]))
        max_dist = max(item_arr)
        max_index = item_arr.index(max_dist)
        # 如果最大的index是0,说明离第二个点更近
        arr2.append(data[i]) if max_index == 0 else arr1.append(data[i])
    point_arr = [get_centerPoint(arr1),get_centerPoint(arr2)]
    # 为什么[[4.8, 1.6], [1.6, 4.8]]会输出两次,因为第一次输出与init_points对比,第一次对比肯定是不同的
    # 第二次point_arr和init_points都是[[4.8, 1.6], [1.6, 4.8]],所以会再输出一次
    print('point_arr:',point_arr)
    for i in range(len(point_arr)):
        # print(point_arr,init_points,i)
        if point_arr[i] != init_points[i]:
            a(point_arr)
            break


if __name__ == '__main__':

    init_points = []
    # 随机选取k个样本作为初始值
    data_copy = data[:]
    for i in range(k):
        random_index = random.randint(0, len(data_copy) - 1)
        init_points.append(data_copy[random_index])
        # 选过之后,把这个元素弹出,防止重复
        data_copy.pop(random_index)

    a(init_points)

跑一遍代码发现,结果正是我们想要的在这里插入图片描述

k-means的优缺点:

  • 优点:

1.思想简单易行
2.时间复杂度接近线性
3.对大数据集,具有高效 性和可伸缩性

  • 缺点:

1.依赖于初始均值的选择
2.须事先给定聚类数k值
3.对噪声和孤立数据敏感

  • 13
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

无心同学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值