机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
sklearn.cluster
模块用来作聚类分析。每一个聚类算法包括两部分结果:一个执行fit
方法的类,它在训练数据上学习类;一个函数,即,给定训练数据,它返回一个整数标签的数组,标签对应每个数据点的聚类结果,保存在labels_
属性里。
输入数据
值得注意的是,sklearn.cluster模块执行的聚类算法能够取不同类型的矩阵作为输入。所有的算法都接受[n_samples, n_features]标准矩阵输入。
聚类方法概述
K-means
KMeans
算法通过最小化类内平方和,将样本分隔进等方差的组。该算法要求聚类前指定类的个数。
K-means算法要将 N N N 个样本的数据集 X X X 分割成 K K K 个互不相交的类 C 1 , C 2 , … , C K C_1, C_2, \dots, C_K C1,C