无废话的机器学习笔记（七）（聚类: kmeans、GMM、谱聚类）

全栈O-Jay

已于 2022-07-29 12:35:12 修改

阅读量1.6k

点赞数 1

分类专栏：人工智能文章标签：聚类机器学习 kmeans 聚类算法人工智能

于 2022-01-16 15:13:06 首次发布

本文链接：https://blog.csdn.net/weixin_45116099/article/details/122522622

版权

人工智能专栏收录该内容

57 篇文章 38 订阅

订阅专栏

这节介绍一下机器学习中的无监督学习中的经典方法，聚类。因为是无监督学习，数据没有标签，要想对他们进行分类，最好的办法就是看他们的分布。在这里插入图片描述
比如上面这个图，我们自然而然就想着把点分成三个类，因为他们分别聚集在一起，这就是聚类方法的核心思想。当然除了看位置，还有看形状和密度。

K-means

就如学感知机首先必学PLA算法，学聚类就首先必学K-means算法。
它跟KNN一样，都是为了分类，能变的只有参数K和算距离的公式（一般都算欧式距离），但是这俩有本质不同，一个是监督学习一个是无监督学习。
我们先看看用了K-means是什么效果：在这里插入图片描述
最左边的图是原始的无标签数据，使用K-means算法，我们想要分3类，所以确定参数K=3，然后K-means算法会不断地迭代计算，直到获得三个合适中心，三个中心分别代表三个类（图中的三个红叉），然后每个数据点的类别就由离它最近的中心决定。
它很喜欢球状分布的数据集。

算法步骤

随机确定K个中心；（最好靠近数据且相互有一定距离）
分别计算所有数据点到K个中心的距离，然后确定每个数据的类别；
分别找K个类的中心位置（计算K个类中数据的均值），重新确定为新的中心；
不断重复2、3步，直到K个中心的位置基本不变。（搞定！）（就是不断算中心，归类，算中心，归类…直到稳定了，K个类就确定了。）
那K选什么值合适？理论上K越大效果越好，误差越小，但是模型的复杂度会相应上升，其中有个tradeoff。可以看到下图的模型选K=6效益最高。