01 无监督学习
- 无监督学习:训练集没有标签,也就是图上的点没有任何标签信息。我们要将这系列无标签的数据,输入到算法中,然后我们要让算法找到一些隐含在数据中的结构,这个图中数据集中的点两组分开的簇,这种能够找到这些簇的算法叫做聚类算法。
02 K-Means算法
K均值算法是现在最为广泛运用的聚类算法
- 通过K均值算法将下图分为两个簇的具体操作:
- 随机生成两点(聚类中心),选取两点的原因是想将数据聚成两类。
- K均值算法是个迭代算法,可以做两件事:簇分配和移动聚类中心。
- K均值算法每次内循环的第一步是要进行簇分配,观察图中的绿点,是接近哪个聚类中心,距离哪个近就分配给哪个。
- 根据离红色或者蓝色聚类中心的远近,将每个点染成红色或者蓝色。