sklearn数据集中手写数字数据集sklearn.datasets.load_digits()包含1797个手写数字图片,首先导入数据
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
digits=load_digits()
data=pd.DataFrame(digits['data'],columns=digits['feature_names'])
label=digits['target']
每个图片是8*8=64个像素,也就是64维数据对应1个标签,现在看一下前20张图
fig,ax=plt.subplots(2,10,figsize=(10,2),subplot_kw={'xticks':[],'yticks':[]})
for i,axi in enumerate(ax.flatten()):
axi.imshow(digits['images'][i,:,:],cmap='gray')
plt.show()

用PCA对数据进行降维,先画维度与信息保留量之间的关系

本文介绍了如何使用PCA算法对手写数字数据进行降维处理。通过sklearn.datasets.load_digits()加载1797个8*8像素的手写数字图像,展示了数据的基本情况。PCA分析显示,当降至30维时,信息保留量达到96.3%。接着,应用随机森林算法进行分类,数据被划分为训练集和测试集。在训练集上得分1,测试集得分0.96。实验揭示了降维与测试集分数的关系,10维以上时,学习曲线稳定在0.9以上的准确率。
最低0.47元/天 解锁文章

3168

被折叠的 条评论
为什么被折叠?



