TensorFlow笔记(三)--CNN识别手写数字

卷积神经网络(Convolutional Neural Network)最初是为了解决图像识别等问题设计的,现在不限于图像和视频,也可以用于时间序列信号,如音频信号和文本数据。早期图像识别最大挑战在于组织特征,图像数据不像其他数据可以通过人工理解来提取有效而丰富的特征。在深度学习出现之前,必须借助SIFT、HoG等算法来提取具有良好区分度的特征,再结合SVM等机器学习算法进行图像识别。

SIFT这类算法提取的特征也是具有局限性的,错误率也挺高,常年难以突破。卷积神经网络可以直接使用图像的原始像素作为输入,提取的特征有更好的效果,同时它不需要将特征提取和分类训练两个过程分开,它在训练时自动的提取了最有效的特征。

CNN最大的特点在于卷积的权值共享结构,可以大幅减少神经网络的参数量,防止过拟合的同时又降低了神经网络模型复杂度。

每个卷积层操作:
(1)图像通过多个不同的卷积核滤波并加偏置,提取出局部特征,每一个卷积核会映射出一个新的2D图像
(2)将前面卷积核的滤波输出结果进行非线性的激活函数处理,如Relu函数。
(3)对激活函数的结果再进行池化操作(即采样,例如将2*2的图片降为1*1的图片),一般使用最大池化,保留最显著的特征并提升模型的畸变容忍能力。

训练使用大小为50的mini-bitch,共进行20000次训练迭代,参与训练的样本数量总共为100万,其中每100次会对准确率进行一次评测,用以实时检测模型的性能。

# -*- coding: utf-8 -*-
"""
Created on Thu Mar  8 08:59:26 2018

@author: wf
"""

from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf

#load data
mnist=input_data.read_data_sets('MNIST_data/',one_hot=True)
sess=tf.InteractiveSession()

#权重设置初始化
def weight_variable(shape):
    initial=tf.truncated_normal(shape,stddev=0.1)
    return tf.Variable(initial)

#偏置设置初始化
def bias_variable(shape):
    initial=tf.constant(0.1,shape=shape)
    return tf.Variable(initial)

#卷积函数,使用‘SAME’填充
def conv2d(x,W):
    return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')

#池化函数,最大池化
def max_pool(x):
    return tf.nn.max_pool(x,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')

#输入
x=tf.placeholder(tf.float32,[None,784])
y_=tf.placeholder(tf.float32,[None,10])
x_image=tf.reshape(x,[-1,28,28,1])

#define the first convolutional layer
W_conv1=weight_variable([5,5,1,32])
b_conv1=bias_variable([32])
h_conv1=tf.nn.relu(conv2d(x_image,W_conv1)+b_conv1)#激活函数
h_pool1=max_pool(h_conv1)#14*14*32


#define the second convolutional layer
W_conv2=weight_variable([5,5,32,64])
b_conv2=bias_variable([64])
h_conv2=tf.nn.relu(conv2d(h_pool1,W_conv2)+b_conv2)
h_pool2=max_pool(h_conv2)#7*7*64

#fully connected layer
W_fc1=weight_variable([7*7*64,1024])
b_fc1=bias_variable([1024])
h_pool2_flat=tf.reshape(h_pool2,[-1,7*7*64])
h_fc1=tf.nn.relu(tf.matmul(h_pool2_flat,W_fc1)+b_fc1)

#dropout layer for reducing overfitting
keep_prob=tf.placeholder(tf.float32)
h_fc1_drop=tf.nn.dropout(h_fc1,keep_prob)

#softmax layer
W_fc2=weight_variable([1024,10])
b_fc2=bias_variable([10])
y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop,W_fc2)+b_fc2)

#define loss function and choose optimizer
cross_entropy=tf.reduce_mean(-tf.reduce_sum(y_*tf.log(y_conv),reduction_indices=[1]))
train_step=tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)

#define accuracy
correct_prediction=tf.equal(tf.argmax(y_conv,1),tf.argmax(y_,1))
accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

tf.global_variables_initializer().run()

#start train process
for i in range(20000):
    batch=mnist.train.next_batch(50)
    if i%100==0:
        train_accuracy=accuracy.eval(feed_dict={x:batch[0],y_:batch[1],keep_prob:1.0})
        print('step %d,training accuracy %g'%(i,train_accuracy))
    train_step.run(feed_dict={x:batch[0],y_:batch[1],keep_prob:0.5})

print("test accuracy %g"%accuracy.eval(feed_dict={x:mnist.test.images,y_:mnist.test.labels,keep_prob:1.0}))

最后取得大约99.2%的准确率,更具有实用价值。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值