MNIST数据集介绍:MNIST数据集由手写数字图片和数字标签0〜9组成的,它包含了70000个手写数字图像,其中60000个是训练数据,另外10000个是测试数据。每个样本都是一张28 * 28像素的灰度手写数字图片。
①导入数据集
#导入数据集获取工具
from sklearn.datasets import fetch_mldata
from sklearn.preprocessing import StandardScaler
from sklearn.utils import check_random_state
#加载MNIST手写数字数据集
mnist = fetch_mldata('MNIST original')
print('样本数量:{}, 样本特征数:{}'.format(mnist.data.shape[0],mnist.data.shape[1]))
②划分测试和训练集(为了控制训练时间,缩减训练数据和测试数据分别为5000和1000)
#导入数据集拆分工具
from sklearn.model_selection import train_test_split
#建立训练数据集和测试数据集
X = mnist.data/255. #把特征向量的值全部除以255,这样全部数据就会在0和1之间
y = mnist.target
X_train, X_test, y_train, y_test = train_test_split(
X, y, train_size = 5000, test_size=1000,random_state=62)
③训练神经网络
#导入MLP神经网络
from sklearn.neural_network import MLPClassifier#
#设置神经网络有1个256个节点的隐藏层,激活函数为relu
mlp_hw = MLPClassifier(solver='lbfgs',hidden_layer_sizes=[256],
activation='relu', alpha = 1e-5,random_state=62)
#使用数据训练神经网络模型
mlp_hw.fit(X_train,y_train)
print('测试数据集得分:{:.2f}%'.format(mlp_hw.score(X_test,y_test)*100))
④进行手写数字识别
3.png
from PIL import Image
#打开图像
image=Image.open(r'D:\course\data_ming\基于Scikit-Learn的人工神经网络实验\3.png').convert('F')
#调整图像的大小
image=image.resize((28,28))
image.show()
arr=[]
#将图像中的像素作为预测数据点的特征
for i in range(28):
for j in range(28):
pixel = 1.0 - float(image.getpixel((j,i)))/255.
pixel = float(image.getpixel((j,i)))/255.
arr.append(pixel)
#由于只有一个样本,所以需要进行reshape操作
arr1 = np.array(arr).reshape(1,-1)
#进行图像识别
print('图片中的数字是:{}'.format(mlp_hw.predict(arr1)[0]))
缺点:sklearn库中的MLP分类和回归只适用于处理小数据集