相关资料
广州大学计算机视觉实验一:图像处理入门
广州大学计算机视觉实验二:摄像机几何
广州大学计算机视觉实验三:图像滤波
广州大学计算机视觉实验四:图像分割
广州大学计算机视觉实验五:简易数字识别
广州大学计算机视觉实验六:车牌识别
六份实验报告下载链接Click me🔗
实验五 简易数字识别
一、实验目的
本实验课程是计算机、智能、物联网等专业学生的一门专业课程,通过实验,帮助学生更好地掌握计算机视觉相关概念、技术、原理、应用等;通过实验提高学生编写实验报告、总结实验结果的能力;使学生对计算机视觉、模式识别实现等有比较深入的认识。
1.掌握模式识别中涉及的相关概念、算法。
2.熟悉计算机视觉中的具体编程方法;
3.掌握问题表示、求解及编程实现。
二、基本要求
1.实验前,复习《计算机视觉与模式识别》课程中的有关内容。
2.准备好实验数据。
3.编程要独立完成,程序应加适当的注释。
4.完成实验报告。
三、实验软件
使用Python实现。
四、实验内容
在Mnist数据集上进行手写数字识别
1. 使用filter bank提取的纹理特征进行最近邻分类
拼接图片各个像素(或各个小块)的滤波器响应,作为feature向量,在训练数据集上进行最近邻搜索,打上标签
2. 使用全连接神经网络进行分类
在训练数据集上训练单层或多层的全连接网络,进行分类
五、实验过程
1. 使用filter bank提取的纹理特征进行最近邻分类
拼接图片各个像素(或各个小块)的滤波器响应,作为feature向量,在训练数据集上进行最近邻搜索,打上标签
1、先获取Mnist数据集,直接使用深度学习框架keras自带的数据包
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import datasets #导入经典数据集加载模块
(x,y),(x_test,y_test)=datasets.mnist.load_data()
print(x.shape)
print(y.shape)
print(x_test.shape)
print(y_test.shape)
print(x[0].shape)
import matplotlib.pyplot as plt
plt.imshow(x[0],cmap="gray")
plt.show()
可以看到有6万的训练集以及1万的验证集。
2、采用第四个实验的filter bank分别对训练集和验证集进行提取特征
因为mnist图像较小,所以卷积核大小也调整为15*15,并且减少滤波器的数量至20个。
#使用filter banks提取训练集特征
x_fea = x.copy().reshape(-1,28,28)
hyper_col_x = np.zeros([x_fea.shape[0],28,28,20])
for i in range(0,20):
kernel = F[:,:,i]
for j in range(0,x_fea.shape[0]):
hyper_col_x[j,:,:,i] = cv2.filter2D(x_fea[j,:,:],-1,kernel)
x_fea = hyper_col_x.copy().reshape(-1,28*28*20)
#使用filter banks提取验证集特征
x_test_fea = x_test.copy().reshape(-1,28,28)
hyper_col = np.zeros([x_test_fea.shape[0],28,28,20])
for i in range(0,20):
kernel = F[:,:,i]
for j in range(0,x_test_fea.shape[0]):
hyper_col[j,:,:,i] = cv2.filter2D(x_test_fea[j,:,:],-1,kernel)
x_test_fea = hyper_col.copy().reshape(-1,28*28*20)
20个滤波器卷积提取得到的特征维度还是蛮高的,282820 =15680
,直接进行KNN分类显然需要耗费大量计算资源,运行时间也过长。
所以考虑降维,常用的无监督降维有PCA,但在这里使用卷积神经网络中经常用的平均池化,降维至28*28。
x_fea = hyper_col_x.copy().mean(axis=3).reshape(-1,28*28)
x_test_fea = hyper_col.copy().mean(axis=3).reshape(-1,28*28)
降维后采用KNN进行分类,可以看到准确率还能达到0.897,说明该算法的效果还是蛮不错的。
2. 使用全连接神经网络进行分类
在训练数据集上训练单层或多层的全连接网络,进行分类
我们自定义的全连接层:
model = tf.keras.Sequential()
model.add(layers.Dense(1024, activation='relu'))
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(128, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))
选择合适的损失函数,这里选择交叉熵函数。
优化算法采用Adam 算法,它和传统的随机梯度下降不同,SGD随机梯度下降保持单一的学习率(即 alpha)更新所有的权重,学习率在训练过程中并不会改变,Adam则会采用自适应性学习率。
训练过程:
可以看到训练集的准确率达到0.9948,验证集的准确率达到0.9726,说明MLP的效果是非常不错的,并且不需要人为地去提取特征,非常便捷,相较于第一种filter bank+KNN的传统分类方法,神经网络现在的应用更为普遍。
训练集和验证集训练20代的精度和损失可视化如下:
可以看到训练集和验证集的loss都是同步下降,而精度同步上升,说明训练集与验证集分布差异不大,训练过程出现了一点过拟合现象,增强数据增强即可弥补这一缺陷。
完整代码如下:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from keras.layers import Dropout
from tensorflow.keras import datasets #导入经典数据集加载模块
(x,y),(x_test,y_test)=datasets.mnist.load_data()
print(x.shape)
print(y.shape)
print(x_test.shape)
print(y_test.shape)
print(x[0].shape)
import matplotlib.pyplot as plt
plt.imshow(x[0],cmap="gray")
plt.show()
x=x.reshape(x.shape[0],28*28)
x_test=x_test.reshape(x_test.shape[0],28*28)
model = tf.keras.Sequential()
model.add(layers.Dense(1024, activation='relu'))
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(128, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))
#选择合适的损失函数,这里选择交叉熵函数
model.compile(optimizer=tf.keras.optimizers.Adam(3e-4),
loss=tf.losses.SparseCategoricalCrossentropy(),
metrics=[tf.keras.metrics.SparseCategoricalAccuracy()])
history = model.fit(x, y, epochs=20, batch_size=256,
validation_data=(x_test, y_test))
import matplotlib.pyplot as plt
acc = history.history['sparse_categorical_accuracy']
val_acc = history.history['val_sparse_categorical_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']
epochs = range(len(acc))
plt.plot(epochs, acc, 'b', label='Training accuracy')
plt.plot(epochs, val_acc, 'r', label='Validation accuracy')
plt.title('Training and validation accuracy')
plt.legend()
plt.figure()
plt.plot(epochs, loss, 'b', label='Training Loss')
plt.plot(epochs, val_loss, 'r', label='Validation Loss')
plt.title('Training and validation loss')
plt.legend()
plt.show()