【sklearn第二十讲】聚类

最新推荐文章于 2024-08-21 00:15:00 发布

Goodsta

最新推荐文章于 2024-08-21 00:15:00 发布

阅读量3.2k

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/wong2016/article/details/81096310

版权

本文介绍了scikit-learn中的聚类方法，包括K-means和层次聚类（Hierarchical clustering）。K-means通过最小化类内平方和进行划分，但易受初始中心点影响。层次聚类则通过合并或分割类创建嵌套类别，如Ward、最大链接和平均链接方法。此外，文章还讨论了聚类效果评价指标，如Adjusted Rand index、互信息分数和Homogeneity、Completeness及V-measure。

摘要由CSDN通过智能技术生成

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）

sklearn.cluster模块用来作聚类分析。每一个聚类算法包括两部分结果：一个执行fit方法的类，它在训练数据上学习类；一个函数，即，给定训练数据，它返回一个整数标签的数组，标签对应每个数据点的聚类结果，保存在labels_属性里。

输入数据

值得注意的是，sklearn.cluster模块执行的聚类算法能够取不同类型的矩阵作为输入。所有的算法都接受[n_samples, n_features]标准矩阵输入。

聚类方法概述

scikit-learn聚类算法比较 ![这里写图片描述](https://img-blog.csdn.net/20180718125540840?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dvbmcyMDE2/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) ![这里写图片描述](https://img-blog.csdn.net/20180718125602601?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dvbmcyMDE2/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)