机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
众所周知,主成分(PCA)是一种无监督的降维方法,而Logistic回归则做预测问题。本例的目的是将二者结合起来,使用函数GridSearchCV
设置主成分的维度。这里要用到scikit-learn自带数据集——“手写数字数据集”。
数据集介绍
“手写数字数据集”在datasets
里,由1,797个手写数字的数据组成。每个数据点样本代表一个0 ~ 9
之间的手写数字,该数字由 8 × 8 \small{8\times8} 8×8大小的像素矩阵表示,矩阵中的元素是0~16的数值,代表颜色深度。例如,下面是数字0的样本
下面是前100个样本的手写数字图形
现在,我们了解一个这个数据集的结构。
from sklearn import datasets
digits = datasets.load_digits()
print(type(digits))
digits是加载的手写数字的数据集,它是一个bunch
类型的对象。bunch类是一种继承自字典型的类。由于这个类直接继承dict类,所以我们可以获得dict类的大量功能,比如对“键/值”的遍历,或者简单查询一个属性是否存在。
print('digits.keys() = ',digits.keys())
结果显示,digits所包含的数据分为data, target, target_names, images, DESCR.
我们再来看一看images
print('digits.images.shape = ',digits.images.shape)
print('digits.images = ',digits.images)