K-means 算法【python,算法,机器学习】

12 篇文章 0 订阅
10 篇文章 0 订阅

K-means 算法试图将数据集中的样本划分为若干个子集,每个子集称为一个簇,通过该算法使得每个聚类内的数据点尽可能相似(即距离该聚类的中心点最近),而不同聚类之间的数据点尽可能不相似。

算法步骤如下:

  1. 从样例数据中随机选择k个点作为初始质心,k表示簇的个数。

  2. 根据质心点循环进行计算分类。当质心点不发生变化时,结束循环,返回最终的质心点。详细计算步骤如下:

    1. 根据质心计算每个点到质心的欧氏距离。
    2. 对于每个数据点,寻找距离最近的质点归类。
    3. 计算每个簇中数据点的平均距离。
    4. 以该平均值作为新的质点,继续计算。

    举个例子,假设计算得到的欧式距离数据如下:

    [[1,2,3],[2,3,1],[4,5,6],[7,6,4]....[3,1,2]]
    

    表示有 3 个簇,样本数据的第一个点距离这三个质点的距离分别为 1、2、3,第二个点距离三个质点的距离分别为 2、3、1,后边的数据依次类推。那么会将第一个点分类到簇 1,第二点分类到簇 3,依次类推。

  3. 根据第 2 步骤得到的质心点,计算获取簇数据。参考 2.1-2.2 步骤。

如下是根据你的需求给出的 Python 示例代码,请在你的环境上提前安装pandas库和numpy库。

import random
import numpy as np
import pandas as pd


# 计算欧氏距离
def euclidean_distance(dataset, centroids, k):
	clalist = []
	for data in dataset:
		# 平铺数据,计算每个点到质心的距离
		diff = np.tile(data, (k, 1)) - centroids
		squared_diff = diff ** 2
		squared_dist = np.sum(squared_diff, axis=1)
		distance = squared_dist ** 0.5
		clalist.append(distance)
	# 返回一个每个点到质点的距离的数组
	clalist = np.array(clalist)
	return clalist


# 分类并计算变化量
def classify(dataset, centroids, k):
	# 计算单个点到每个质心的的距离
	# 数据结构为:[[1,2,3],[2,3,1],[4,5,6],[7,6,4]....[3,1,2]]
	# 表示有三个质心,数组中的第一个元素表示样本的第一个点分别到三个质心的距离
	clalist = euclidean_distance(dataset, centroids, k)
	# 对于每个点,将会分配到距离它最近的质心,这里给出的是分类结果的索引
	min_dist_indices = np.argmin(clalist, axis=1)
	# 按照 min_dist_indices 进行统计分类,对分类结果求均值
	new_centro_ids = pd.DataFrame(dataset).groupby(min_dist_indices).mean()
	new_centro_ids = new_centro_ids.values
	# 计算变化量
	changed = new_centro_ids - centroids

	return changed, new_centro_ids


# k-means 算法
def kmeans(dataset, k):
	# 随机取质心
	centroids = random.sample(dataset, k)

	# 更新质心,直到变化量全为 0
	changed, new_centro_ids = classify(dataset, centroids, k)
	while np.any(changed != 0):
		changed, new_centro_ids = classify(dataset, new_centro_ids, k)

	centroids = sorted(new_centro_ids.tolist())

	# 根据质心计算每个集群
	cluster = []
	clalist = euclidean_distance(dataset, centroids, k)
	min_dist_indices = np.argmin(clalist, axis=1)
	for _ in range(k):
		cluster.append([])
	for data_idx, cluster_idx in enumerate(min_dist_indices):
		cluster[cluster_idx].append(dataset[data_idx])

	return centroids, cluster


# 创建数据集
dataset = [[1, 1], [1, 2], [2, 1], [6, 4], [6, 3], [5, 4]]
# k-means 算法
centroids, cluster = kmeans(dataset, 2)
print('质心为:{}'.format(centroids))
print('集群为:{}'.format(cluster))

上述代码中,定义了一个主函数kmeans和两个辅助函数classifyeuclidean_distance,创建了一个数据集dataset,主函数接受数据集dataset和聚类的类别数k作为输入,然后调用两个辅助函数实现聚类计算的功能。

需要注意的是,K-means 算法虽然有效,但是容易受到初始簇质心的情况而影响,有可能陷入局部最优解。

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值