笔试题，一小时手写k-means算法

最新推荐文章于 2024-07-10 17:02:08 发布

汤姆憨克斯Ymir

最新推荐文章于 2024-07-10 17:02:08 发布

阅读量576

点赞数

文章标签：自然语言处理数据挖掘机器学习深度学习算法

本文链接：https://blog.csdn.net/yt6655050/article/details/113156185

版权

循环智能-算法工程师笔试题：手写k-means算法

1.题目描述

数据输出：
一个 N * 1 的一维向量，代表进行聚类之后各个点所属的类id。

要求：
代码可执行、正确、清晰
不得参考任何现成代码，否则自动fail

样例函数：
def clustering(data, k):
N, m = data.shape
…
return data_cluster

算法流程为（使用欧几里得距离）：
令S为质心集合，初始化为空集
从数据集中随机选取一个样本点，加入S成为第一个质心
for i = 2 to k：
对于不在S中的每个样本，计算其与当前S中所有质心的距离的最大值D
选取D值最大的点，加入S成为第i个质心
（此时S中包含k个质心）
对每个样本点：
计算其与S中各个质心的距离
将样本点分配至最近质心所属的类
对某个类：
将质心设置为该类所有样本点的均值
在S中更新对应的类的质心
如果S中有质心发生改变，则重复上述过程（4-5）

2.题目解释

相信大家一下子就看出来了，这不就是要实现k-means聚类算法吗？哈哈

3.第一版回答

这是我第一版手写的k-means算法，过于冗余，而且只能处理特征数为2的数据集，并且不能处理重复的数据点…缺点不一而足，后续进行了优化

import numpy as np

#初始化质心
def init_c(data, k):
    key_1=np.random.randint(0, len(data))#选取第一个质心
    c_list = []  # 质心集合
    c_list.append(list(data[key_1]))
    temp = np.delete(data,key_1, axis = 0)
    length=len(temp)
for i in range(k-1):
        max_dis=0
        for j in range(0,length):
            D=0
            for c in c_list:
if dis_E(c,list(temp[j]))>D:
                    D=dis_E(c,list(temp[j]))
if D>max_dis:
                max_dis=D
                current_c=j #当前最大值的下标
        c_list.append(list(temp[current_c]))
        temp = np.delete(temp, current_c, axis=0)
        length-=1
    return c_list

#计算两点的欧式距离
def dis_E(x,y):
return np.sqrt((x[0]-y[0])**2+(x[1]-y[1])**2)

#计算中心
def c_cal(list_c):
    a_x,a_y=0,0
    for l in list_c:
        a_x+=l[0]
        a_y+=l[1]
return [a_x/len(list_c),a_y/len(list_c)]

def clustering(data, k):
N, m = data.shape
    c_list=init_c(data, k)
    dic={} #存储类簇归属的点的dict
    c_type=0
    for c in c_list:
        l=[]
        l.append(c)
        dic_temp={c_type:l}
        dic.update(dic_temp)
        c_type+=1

    flag=1
    while flag:
for i in range(len(data)):
            min_dis=-1
            for j in range(len(c_list)):
if min_dis==-1:
                    min_dis=dis_E(c_list[j],list(data[i]))
                    current_c=0
                if dis_E(c_list[j],list(data[i]))<min_dis:
                    min_dis=dis_E(c_list[j],list(data[i]))
                    current_c = j
for j in range(len(c_list)):
                list_temp = dic[j]
                list_new=[]
for l in list_temp:
if l!=list(data[i]):
                        list_new.append(l)
                dic_temp = {j: list_new}
                dic.update(dic_temp)
            list_temp=dic[current_c]
            list_temp.append(list(data[i]))
            dic_temp = {current_c: list_temp}
            dic.update(dic_temp)
        flag=0
        for i in range(len(c_list)):
            list_temp = dic[i]
            c_new=c_cal(list_temp)
if c_new!=c_list[i]:
                flag=1
                c_list[i]=c_new
print('当前质心的坐标:')
print(c_list)
print('最终各类的数据点如下:')
print(dic)

#判断每个数据点属于哪一类
    result=[]
for i in range(len(data)):
        target_i=list(data[i])
for j in range(len(c_list)):
            list_temp = dic[j]
for l in list_temp:
if l == target_i:
                    result.append(j)
print('输出结果如下：')
return result

#主体部分
data = np.random.randint(0,30,size=[40,2]) #随机生成我们的数据集
print('随机生成的数据集:')
print(data)
k = 3 #指定类簇的数量
print(clustering(data,k))

4.优化后的算法

汤姆憨克斯Ymir

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
笔试题，一小时手写k-means算法

循环智能-算法工程师笔试题：手写k-means算法1.题目描述数据输出：一个 N * 1 的一维向量，代表进行聚类之后各个点所属的类id。要求：代码可执行、正确、清晰不得参考任何现成代码，否则自动fail样例函数：def clustering(data, k):N, m = data.shape…return data_cluster算法流程为（使用欧几里得距离）：令S为质心集合，初始化为空集从数据集中随机选取一个样本点，加入S成为第一个质心for i = 2 to k：对
复制链接

扫一扫