TensorFlow笔记（三）--CNN识别手写数字

最新推荐文章于 2022-11-21 14:23:51 发布

wf592523813

最新推荐文章于 2022-11-21 14:23:51 发布

阅读量404

点赞数

分类专栏： Tensorflow

本文链接：https://blog.csdn.net/wf592523813/article/details/79496434

版权

Tensorflow 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

卷积神经网络（Convolutional Neural Network）最初是为了解决图像识别等问题设计的，现在不限于图像和视频，也可以用于时间序列信号，如音频信号和文本数据。早期图像识别最大挑战在于组织特征，图像数据不像其他数据可以通过人工理解来提取有效而丰富的特征。在深度学习出现之前，必须借助SIFT、HoG等算法来提取具有良好区分度的特征，再结合SVM等机器学习算法进行图像识别。

SIFT这类算法提取的特征也是具有局限性的，错误率也挺高，常年难以突破。卷积神经网络可以直接使用图像的原始像素作为输入，提取的特征有更好的效果，同时它不需要将特征提取和分类训练两个过程分开，它在训练时自动的提取了最有效的特征。

CNN最大的特点在于卷积的权值共享结构，可以大幅减少神经网络的参数量，防止过拟合的同时又降低了神经网络模型复杂度。

每个卷积层操作：
（1）图像通过多个不同的卷积核滤波并加偏置，提取出局部特征，每一个卷积核会映射出一个新的2D图像
（2）将前面卷积核的滤波输出结果进行非线性的激活函数处理，如Relu函数。
（3）对激活函数的结果再进行池化操作（即采样，例如将2*2的图片降为1*1的图片），一般使用最大池化，保留最显著的特征并提升模型的畸变容忍能力。

训练使用大小为50的mini-bitch，共进行20000次训练迭代，参与训练的样本数量总共为100万，其中每100次会对准确率进行一次评测，用以实时检测模型的性能。

# -*- coding: utf-8 -*-
"""
Created on Thu Mar  8 08:59:26 2018

@author: wf
"""

from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf

#load data
mnist=input_data.read_data_sets('MNIST_data/',one_hot=True)
sess=tf.InteractiveSession()

#权重设置初始化
def weight_variable(shape):
    initial=tf.truncated_normal(shape,stddev=0.1)
    return tf.Variable(initial)

#偏置设置初始化
def bias_variable(shape):
    initial=tf.constant(0.1,shape=shape)
    return tf.Variable(initial)

#卷积函数，使用‘SAME’填充
def conv2d(x,W):
    return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')

#池化函数，最大池化
def max_pool(x):
    return tf.nn.max_pool(x,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')

#输入
x=tf.placeholder(tf.float32,[None,784])
y_=tf.placeholder(tf.float32,[None,10])
x_image=tf.reshape(x,[-1,28,28,1])

#define the first convolutional layer
W_conv1=weight_variable([5,5,1,32])
b_conv1=bias_variable([32])
h_conv1=tf.nn.relu(conv2d(x_image,W_conv1)+b_conv1)#激活函数
h_pool1=max_pool(h_conv1)#14*14*32


#define the second convolutional layer
W_conv2=weight_variable([5,5,32,64])
b_conv2=bias_variable([64])
h_conv2=tf.nn.relu(conv2d(h_pool1,W_conv2)+b_conv2)
h_pool2=max_pool(h_conv2)#7*7*64

#fully connected layer
W_fc1=weight_variable([7*7*64,1024])
b_fc1=bias_variable([1024])
h_pool2_flat=tf.reshape(h_pool2,[-1,7*7*64])
h_fc1=tf.nn.relu(tf.matmul(h_pool2_flat,W_fc1)+b_fc1)

#dropout layer for reducing overfitting
keep_prob=tf.placeholder(tf.float32)
h_fc1_drop=tf.nn.dropout(h_fc1,keep_prob)

#softmax layer
W_fc2=weight_variable([1024,10])
b_fc2=bias_variable([10])
y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop,W_fc2)+b_fc2)

#define loss function and choose optimizer
cross_entropy=tf.reduce_mean(-tf.reduce_sum(y_*tf.log(y_conv),reduction_indices=[1]))
train_step=tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)

#define accuracy
correct_prediction=tf.equal(tf.argmax(y_conv,1),tf.argmax(y_,1))
accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

tf.global_variables_initializer().run()

#start train process
for i in range(20000):
    batch=mnist.train.next_batch(50)
    if i%100==0:
        train_accuracy=accuracy.eval(feed_dict={x:batch[0],y_:batch[1],keep_prob:1.0})
        print('step %d,training accuracy %g'%(i,train_accuracy))
    train_step.run(feed_dict={x:batch[0],y_:batch[1],keep_prob:0.5})

print("test accuracy %g"%accuracy.eval(feed_dict={x:mnist.test.images,y_:mnist.test.labels,keep_prob:1.0}))

最后取得大约99.2%的准确率，更具有实用价值。

wf592523813

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow笔记（三）--CNN识别手写数字

卷积神经网络（Convolutional Neural Network）最初是为了解决图像识别等问题设计的，现在不限于图像和视频，也可以用于时间序列信号，如音频信号和文本数据。早期图像识别最大挑战在于组织特征，图像数据不像其他数据可以通过人工理解来提取有效而丰富的特征。在深度学习出现之前，必须借助SIFT、HoG等算法来提取具有良好区分度的特征，再结合SVM等机器学习算法进行图像识别。SIFT...
复制链接

扫一扫

专栏目录