基于TENSORFLOW的手写数字识别

最新推荐文章于 2024-08-08 16:44:55 发布

破黑

最新推荐文章于 2024-08-08 16:44:55 发布

阅读量2.3k

点赞数 2

分类专栏：机器学习文章标签：机器学习神经网络 python tensorflow 图片数字自动识别

本文链接：https://blog.csdn.net/yaomianfa/article/details/107090652

版权

本文介绍了一种基于Tensorflow的卷积神经网络（CNN）实现手写数字识别的方法，利用LeNet5网络结构，结合MNIST数据集进行训练。文章详细阐述了CNN的组成部分，包括输入层、卷积层、池化层、全连接层和DropOut层，并提供了模型训练、参数定义、数据预处理、模型保存和基于PYQT的手写板设计等相关代码。

摘要由CSDN通过智能技术生成

1．引言

随着人工智能的发展，人工智能已经广泛应用到各个领域，以Tensorflow框架为深度学习工具的应用已经相当广泛，卷积神经网络是一类包含卷积运算且具有深度结构的前馈神经网络，采用反向传播(Back Propagation,BP)算法对模型进行学习训练，手写字体识别模型LeNet5诞生于1994年，是最早的卷积神经网络之一。LeNet5通过巧妙的设计，利用卷积、参数共享、池化等操作提取特征，避免了大量的计算成本，最后再使用全连接神经网络进行分类识别，这个网络也是最近大量神经网络架构的起点。本文基于Tensorflow，结合深度学习框架，利用Softmax回归算法进行多分类，结合CNN卷积神经网络实现对手写数字体的识别。

LeNet5结构图：

MNIST数据集：
在这里插入图片描述

2.系统结构

TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。TensorFlow使用计算图表来执行其所有的计算。计算被表示为tf.Graph对象的一个实例，而其中的数据被表示为tf.Tensor对象，并使用tf.Operation对象对这样的张量对象进行操作。然后再使用tf.Session对象的会话中执行该图表。图中节点（Nodes）一般表示施加的数学操作，或者表示数据输入（feed in）的起点/输出（push out）的终点，或者是读取/写入持久变量（persistent variable）的终点，图中线/边（edges）则表示在节点间相互联系的多维数据组，即张量（tensor）。

卷积神经网络结构一般含有以下几层：输入层，卷积层，池化层，全连接层，DropOut层，输出层

输入层就是整个神经网络的输入，在本文的卷积神经网络中，输入就是一张图片，三维卷积神经网络的输入层接受一个四维数组： [样本数量，样本长，样本宽，样本深度（对应图片通道数）]。

卷积层的功能是对输入数据进行特征提取，抽象特征，每一个卷积层都是通过一个可调的卷积核与上一层特诊图进行卷积运算，再加上一个偏移量得到输出，再经过激活函数得到结果。通过卷积我们可以逐步得到更高层次的特征。特征是不断进行提取和压缩的，最终能得到比较高层次特征，简言之就是对原始特征一步又一步的浓缩，最终得到的特征更可靠。利用最后一层特征可以做各种任务：比如分类、回归等。

池化层的作用主要是在保留主要特征的同时减少参数和计算量，达到降维的目的，去除冗余信息，简化网络复杂度。

全连接层在整个卷积神经网络中起到分类的作用，因为我们最终需要的结果是一个分类的结果，是一维的，通过全连接层我们将输入的多维数据转为一维数据输出，在 CNN 中，全连接常出现在最后几层，用于对前面设计的特征做加权和。比如 mnist，前面的卷积和池化相当于做特征工程，后面的全连接相当于做特征加权。

为了防止训练模型的过拟合，需要在卷积神经网络中添加一层DropOut层，该层随机丢弃部分参数，此机制将保证神经网络不会对训练样本过于匹配，这将帮助缓解过拟合问题。

SoftMax函数， softmax 用于多分类过程中，它将多个神经元的输出，映射到（0,1）区间内，公式如下：