机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
在这个例子里,我们在手写数字识别数据集上,比较 K-means
聚类算法对于不同的初始化策略对运行时间和结果质量的影响。我们也利用不同的聚类质量测度判别聚类标签对于参考标签的拟合优度。这里使用的聚类评价测度有:
-
homo (homogeneity score)
-
compl (completeness score)
-
v-meas (V measure)
-
ARI (adjusted Rand index)
-
AMI (adjusted mutual information)
-
silhouette (silhouette coefficient)
实例详解
首先,加载必需的库。导入手写数字数据集 digits
.
from time import time
import numpy as np
import matplotlib.pyplot as plt
from sklearn import metrics
from sklearn.cluster import KMeans
from sklearn.datasets import load_digits
from sklearn.decomposition import PCA
from sklearn.preprocessing import scale
np.random.seed(42)
digits = load_digits()
data = scale(digits.data)
n_sa