聚类分析是在没给定划分类别的情况下,根据数据相似度进行样本划分的一种方法,属于非监督学习。
(1)使用sklearn估计器构建聚类模型
聚类算法实现需要估计器,sklearn估计器有fit和predict两个方法:
fit: 主要用于训练算法,该方法可接收用于有监督学习的训练集及其标签两个参数,也可接收无监督学习的数据。
predict:用于有监督学习的测试集标签,也可用于划分传入数据的类别。
以iris数据为例,构建K-means聚类模型
from sklearn.datasets import load_iris #从datasets加载iris数据
from sklearn.preprocessing import MinMaxScaler #从preprocessing加载离差标准化模块
from sklearn.cluster import KMeans #从cluster加载k均值聚类模块
iris=load_iris()
iris_data=iris['data'] #提取数据集的特征
iris_target=iris['target'] #提取数据集的标签
iris_names=iris['feature_names'] #提取特征名
s