手写数字识别
导入需要的包模块
import numpy as np
import cv2
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.neighbors import KNeighborsClassifier
预览图片
# bitmap 位图
digit = cv2.imread('./u=123514531,1306365842&fm=26&fmt=auto.bmp')
plt.imshow(digit)
# 将(三维的)彩色图片转换为黑白的(图片灰度化处理):大大降低数据量
digit = cv2.cvtColor(digit,code = cv2.COLOR_BGR2GRAY)
# (391,500,3) -----> (391,500)
# 数据量减少,只有原来的1/3
#
digit.shape
代码遍历创建的图片文件并读取
X = []
for i in range(1,3):
for j in range(1,7):
digit = cv2.imread('./data/%d/%d.bmp'%(i,j))
X.append(digit[:,:,0])
数据X与目标值y一一对应
X = np.asarray(X) #numpy对象
y = np.array([i for i in range(2)]*6)
y.sort()
随机选取图片并进行打印
# digit二维的,高度,维度,像素(只有一个值)-----用什么颜色表示呢
# 选择黑白,图片show就是黑白,rainbow显示出来,彩虹效果
index = np.random.randint(1,12,size = 1)[0]
digit = X[index]
print('-----------------------------',y[index])
plt.imshow(digit,cmap=plt.cm.gray)
y[:4] #查看前4个图片
X,y划分成训练和验证数据
# 模型选择 可以打乱顺序 按照比例进行划分
from sklearn.model_selection import train_test_split
# test_size = 0.2 则 train_size = 0.8
# 训练:测试 = 4:1
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.2 )
X_test.shape