广州大学计算机视觉实验五：简易数字识别

wujiekd

已于 2022-04-15 14:31:50 修改

阅读量1.6k

点赞数

分类专栏：比赛+项目开源方案文章标签：计算机视觉

于 2021-08-02 11:01:05 首次发布

本文链接：https://blog.csdn.net/weixin_43999137/article/details/119320816

版权

比赛+项目开源方案专栏收录该内容

29 篇文章 9 订阅

订阅专栏

一、实验目的

本实验课程是计算机、智能、物联网等专业学生的一门专业课程，通过实验，帮助学生更好地掌握计算机视觉相关概念、技术、原理、应用等；通过实验提高学生编写实验报告、总结实验结果的能力；使学生对计算机视觉、模式识别实现等有比较深入的认识。
1.掌握模式识别中涉及的相关概念、算法。
2.熟悉计算机视觉中的具体编程方法；
3.掌握问题表示、求解及编程实现。

二、基本要求

1.实验前，复习《计算机视觉与模式识别》课程中的有关内容。
2.准备好实验数据。
3.编程要独立完成，程序应加适当的注释。
4.完成实验报告。

三、实验软件

使用Python实现。

四、实验内容

在Mnist数据集上进行手写数字识别

1. 使用filter bank提取的纹理特征进行最近邻分类

拼接图片各个像素（或各个小块）的滤波器响应，作为feature向量，在训练数据集上进行最近邻搜索，打上标签

2. 使用全连接神经网络进行分类

在训练数据集上训练单层或多层的全连接网络，进行分类

五、实验过程

1. 使用filter bank提取的纹理特征进行最近邻分类

拼接图片各个像素（或各个小块）的滤波器响应，作为feature向量，在训练数据集上进行最近邻搜索，打上标签

1、先获取Mnist数据集，直接使用深度学习框架keras自带的数据包

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import datasets #导入经典数据集加载模块

(x,y),(x_test,y_test)=datasets.mnist.load_data()
print(x.shape)
print(y.shape)
print(x_test.shape)
print(y_test.shape)

print(x[0].shape)
import matplotlib.pyplot as plt
plt.imshow(x[0],cmap="gray")
plt.show()

在这里插入图片描述

可以看到有6万的训练集以及1万的验证集。

2、采用第四个实验的filter bank分别对训练集和验证集进行提取特征
因为mnist图像较小，所以卷积核大小也调整为15*15，并且减少滤波器的数量至20个。
在这里插入图片描述

#使用filter banks提取训练集特征
x_fea = x.copy().reshape(-1,28,28)
hyper_col_x = np.zeros([x_fea.shape[0],28,28,20])
for i in range(0,20):    
    kernel = F[:,:,i]
    for j in range(0,x_fea.shape[0]):
        hyper_col_x[j,:,:,i] = cv2.filter2D(x_fea[j,:,:],-1,kernel)
x_fea = hyper_col_x.copy().reshape(-1,28*28*20)

#使用filter banks提取验证集特征
x_test_fea = x_test.copy().reshape(-1,28,28)
hyper_col = np.zeros([x_test_fea.shape[0],28,28,20])
for i in range(0,20):    
    kernel = F[:,:,i]
    for j in range(0,x_test_fea.shape[0]):
        hyper_col[j,:,:,i] = cv2.filter2D(x_test_fea[j,:,:],-1,kernel)
x_test_fea = hyper_col.copy().reshape(-1,28*28*20)

20个滤波器卷积提取得到的特征维度还是蛮高的，282820 =15680
，直接进行KNN分类显然需要耗费大量计算资源，运行时间也过长。
所以考虑降维，常用的无监督降维有PCA，但在这里使用卷积神经网络中经常用的平均池化，降维至28*28。

x_fea = hyper_col_x.copy().mean(axis=3).reshape(-1,28*28)
x_test_fea = hyper_col.copy().mean(axis=3).reshape(-1,28*28)

在这里插入图片描述

降维后采用KNN进行分类，可以看到准确率还能达到0.897，说明该算法的效果还是蛮不错的。

在这里插入图片描述

2. 使用全连接神经网络进行分类

在训练数据集上训练单层或多层的全连接网络，进行分类
我们自定义的全连接层：

model = tf.keras.Sequential()
model.add(layers.Dense(1024, activation='relu'))
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(128, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))

选择合适的损失函数,这里选择交叉熵函数。
优化算法采用Adam 算法，它和传统的随机梯度下降不同，SGD随机梯度下降保持单一的学习率（即 alpha）更新所有的权重，学习率在训练过程中并不会改变，Adam则会采用自适应性学习率。

训练过程：
在这里插入图片描述

可以看到训练集的准确率达到0.9948，验证集的准确率达到0.9726，说明MLP的效果是非常不错的，并且不需要人为地去提取特征，非常便捷，相较于第一种filter bank+KNN的传统分类方法，神经网络现在的应用更为普遍。
训练集和验证集训练20代的精度和损失可视化如下：
可以看到训练集和验证集的loss都是同步下降，而精度同步上升，说明训练集与验证集分布差异不大，训练过程出现了一点过拟合现象，增强数据增强即可弥补这一缺陷。

在这里插入图片描述

完整代码如下：

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from keras.layers import Dropout
from tensorflow.keras import datasets #导入经典数据集加载模块

(x,y),(x_test,y_test)=datasets.mnist.load_data()
print(x.shape)
print(y.shape)
print(x_test.shape)
print(y_test.shape)

print(x[0].shape)
import matplotlib.pyplot as plt
plt.imshow(x[0],cmap="gray")
plt.show()


x=x.reshape(x.shape[0],28*28)
x_test=x_test.reshape(x_test.shape[0],28*28)

model = tf.keras.Sequential()
model.add(layers.Dense(1024, activation='relu'))
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(128, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))

#选择合适的损失函数,这里选择交叉熵函数
model.compile(optimizer=tf.keras.optimizers.Adam(3e-4),
             loss=tf.losses.SparseCategoricalCrossentropy(),
             metrics=[tf.keras.metrics.SparseCategoricalAccuracy()])

history = model.fit(x, y, epochs=20, batch_size=256,
          validation_data=(x_test, y_test))


import matplotlib.pyplot as plt
acc = history.history['sparse_categorical_accuracy']
val_acc = history.history['val_sparse_categorical_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(len(acc))

plt.plot(epochs, acc, 'b', label='Training accuracy')
plt.plot(epochs, val_acc, 'r', label='Validation accuracy')
plt.title('Training and validation accuracy')
plt.legend()

plt.figure()

plt.plot(epochs, loss, 'b', label='Training Loss')
plt.plot(epochs, val_loss, 'r', label='Validation Loss')
plt.title('Training and validation loss')
plt.legend()

plt.show()