机器学习：kMeans 聚类

最新推荐文章于 2024-07-21 16:32:09 发布

浊酒南街

最新推荐文章于 2024-07-21 16:32:09 发布

阅读量97

点赞数 1

分类专栏： # 推荐系统与机器学习文章标签：聚类机器学习 kmeans

本文链接：https://blog.csdn.net/weixin_43597208/article/details/130706950

版权

推荐系统与机器学习专栏收录该内容

48 篇文章 3 订阅

订阅专栏

聚类

聚类，简单来说，就是将一个庞杂数据集中具有相似特征的数据自动归类到一起，称为一个簇，簇内的对象越相似，聚类的效果越好。它是一种无监督的学习(Unsupervised Learning)方法,不需要预先标注好的训练集。聚类与分类最大的区别就是分类的目标事先已知；

K-Means 算法：

k均值（k-means）是聚类算法中最为简单、高效的，属于无监督学习算法；
核心思想：由用户指定K个初始质心（initial centroids），以作为聚类的类别（cluster）,重复迭代直至算法收敛；

基本算法流程：
1.选取k个初始质心（作为初始cluster）
2.重复：对每个样本点，计算得到距其最近的质心，将其类别标记为该质心所对应的cluster,重复计算k个cluster对应的质心；
3.直到质心不在发生改变或迭代达到上线；
在这里插入图片描述
上述过程的伪代码如下:
1.创建 k 个点作为起始质心（通常是随机选择）
2.当任意一个点的簇分配结果发生改变时（不改变时算法结束），对数据集中的每个数据点，对每个质心，计算质心与数据点之间的距离，将数据点分配到距其最近的簇；
3.对每一个簇, 计算簇中所有点的均值并将均值作为质心，不断迭代，直至质心位置不发生改变（误差范围内）；

K-Means 术语

簇: 所有数据的点集合，簇中的对象是相似的。
质心: 簇中所有点的中心（计算所有点的均值而来）.
SSE: Sum of Sqared Error（误差平方和）, 它被用来评估模型的好坏，SSE 值越小，表示越接近它们的质心. 聚类效果越好。由于对误差取了平方，因此更加注重那些远离中心的点（一般为边界点或离群点）。

优缺点:

优点：
属于无监督学习，无须准备训练集
原理简单，实现起来较为容易
结果可解释性较好

缺点:
需手动设置k值。在算法开始预测之前，我们需要手动设置k值，即估计数据大概的类别个数，不合理的k值会使结果缺乏解释性
可能收敛到局部最小值, 在大规模数据集上收敛较慢
对于异常点、离群点敏感
使用数据类型 : 数值型数据

浊酒南街

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习：kMeans 聚类

聚类，简单来说，就是将一个庞杂数据集中具有相似特征的数据自动归类到一起，称为一个簇，簇内的对象越相似，聚类的效果越好。2.当任意一个点的簇分配结果发生改变时（不改变时算法结束），对数据集中的每个数据点，对每个质心，计算质心与数据点之间的距离，将数据点分配到距其最近的簇；2.重复：对每个样本点，计算得到距其最近的质心，将其类别标记为该质心所对应的cluster,重复计算k个cluster对应的质心；3.对每一个簇, 计算簇中所有点的均值并将均值作为质心，不断迭代，直至质心位置不发生改变（误差范围内）；
复制链接

扫一扫

专栏目录