算法原理
K- Means是迭代动态聚类算法中的一种,其中K表示类别数,Means表示均值,属于无监督学习算法.
K-Means算法的步骤:
第一步:确定一个超参数K,就是将样本聚集为几类
第二步:在所有样本中随机选择k个点,作为中心
第三步:依次计算除这k个中心点外的每一个点和k个中心点的距离,找出最近的距离
第四步: 将所有点划分到各自和k个中心点最近的那个中心点的簇中去
第五步: 所有样本被划分为k各类别,有了k个堆数据,分别计算k个簇的中心
第六步: 生成k个新的中心点,以这k个中心重新到第三步开始执行
第七步:终止条件: 所有样本点的分类结果不在变化或达到设定算法的最大迭代次数
简单的代码实现
工具:jupyter notebook
工具库: sklearn
# 导包
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
# 设置图风格
plt.style.use('seaborn')
# 设置输出中文
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#生成样本集
# X为样本特征,Y为样本簇类别, 共1000个样本,
# 每个样本 2 个特征,共4个簇,
# 簇中心在[-1,-1], [