寻找利用神经网络识别手写数据集MNIST程序的最佳参数(learning_rate、nodes、epoch)

寻找利用神经网络识别手写数据集MNIST程序的最佳参数(learning_rate、nodes、epoch)

在利用神经网络进行MNIST手写数据集进行识别时,部分参数是需要人为进行设置的,具有不确定性,本文按照英国人工智能领域硕士塔里克·拉希德(Tariq Rashid)先生的方法对于识别MNIST数据集的BP神经网络算法程序进行了多项参数测试,利用基本的控制变量法,试图寻找针对MNIST数据集识别的学习率、隐藏层节点数以及训练循环次数的最佳值,并验证塔里克·拉希德(Tariq Rashid)在书中得到的结论的准确性

利用神经网络算法识别手写数据集MNIST的程序原代码连接如下:
https://blog.csdn.net/weixin_46076729/article/details/108936565
读者可根据此代码进行测试。

注意:本文利用的是jupyter Notebook进行程序执行,需将建立神经网络的类的程序与训练神经网络的程序放在同一个Input框中,然后将验证神经网络的程序放在另一个框中进行执行,点击Jupyter的运行按钮两次,如果将程序放在同一个框中执行可能系统会出现报错。

由于程序一开始进行前向传播时,需要系统生成随机矩阵,所以为了避免由于系统产生随机数带来的偶然因素影响,每一次试验进行了三次运行,并最终取平均值进行分析。本文用MNIST数据集的6000条数据进行训练,用测试集的10000条数据进行验证,利用识别数据的准确率来表征算法识别的质量好坏。

下列表格中,score1、score2、score3表示三次平行测试的结果,average_value是三次测试结果的平均值。

一、对各项参数的分析

1、学习率(learing_rate)

控制变量:循环次数(epoch)=5;隐藏层节点数(nodes)=100

取其平均值用折线图表示如图所示:

显然,当learning rate=0.1的时候能够取得最高的准确率。

2、隐藏层节点数(nodes)

控制变量:学习率(learning rate)=0.3;循环次数(epoch)=2


取其平均值用折线图表示如图所示:


此外,本文还记录了运行程序所需要的时间,如下图所示:

根据上数两个图可以看出, 当节点数达到一定数量时,算法的准去率会趋于一个稳定值,在这个稳定值上下波动。然而,从第二张图可以看出,随着节点数的增加,程序的计算量也进一步增加,节点数越多,程序所需运行的时间就越长,所以综合因素考虑,当节点数在150到200之间的时候基本为最佳值,在此范围内,可以获得较高的准确率,并且程序运行时间也较短,能够有效节约时间成本。

3、训练循环次数(epoch)

控制变量:学习率(learning rate)=0.3;隐藏层节点数(nodes)=100

取其平均值用折线图表示如图所示:


很明显,改变训练次数并不能提高神经网络的识别准确率,一开始认为数据出现了问题或者程序出现了问题,在经过一番思考后突然意识到,每次循环的时候,在前向传播阶段,系统都要先对输入层与隐藏层之间的权重矩阵进行随机赋值,数值符合正态分布,均值为0,标准差为隐藏层节点数的负二分之一次方,正因为计算机在每次循环的开头对权重矩阵的随机赋值,使得偶然性大大增加。每次循环都是重新开始,并不能对上一次的权重矩阵进行反向传播计算,所以才导致了上图所示的试验结果。

二、总结

通过控制变量对三项参数进行定量分析,从而找到利用BP神经网络对MNIST手写数据集进行识别的程序不确定性参数的最佳值,与塔里克·拉希德(Tariq Rashid)的结论基本一致,得到最佳学习率(learning rate)为0.1,最佳隐藏层节点数(nodes)为150到200之间。

[1] 《Python神经网络编程》 [英]塔里克·拉希德(Tariq Rashid) 人民邮电出版社

(作为一个初学者来说,第一次学习神经网络与python,若文中有错误,欢迎大佬指正。)

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
好的,以下是利用卷积神经网络实现手写数字识别的代码: ```python import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data # 导入数据集 mnist = input_data.read_data_sets('MNIST_data', one_hot=True) # 设置超参数 learning_rate = 0.001 epochs = 10 batch_size = 128 # 定义网络结构 x = tf.placeholder(tf.float32, [None, 784]) y = tf.placeholder(tf.float32, [None, 10]) x_image = tf.reshape(x, [-1,28,28,1]) conv1 = tf.layers.conv2d(x_image, 32, 5, activation=tf.nn.relu) pool1 = tf.layers.max_pooling2d(conv1, 2, 2) conv2 = tf.layers.conv2d(pool1, 64, 3, activation=tf.nn.relu) pool2 = tf.layers.max_pooling2d(conv2, 2, 2) fc1 = tf.contrib.layers.flatten(pool2) fc1 = tf.layers.dense(fc1, 1024) fc1 = tf.nn.relu(fc1) fc1 = tf.layers.dropout(fc1, rate=0.5) output = tf.layers.dense(fc1, 10) # 定义损失函数和优化器 loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=output, labels=y)) optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(loss) # 定义评价指标 correct_prediction = tf.equal(tf.argmax(output, 1), tf.argmax(y, 1)) accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) # 训练模型 with tf.Session() as sess: sess.run(tf.global_variables_initializer()) for epoch in range(epochs): total_batch = mnist.train.num_examples // batch_size for batch in range(total_batch): batch_x, batch_y = mnist.train.next_batch(batch_size) sess.run(optimizer, feed_dict={x: batch_x, y: batch_y}) # 每个epoch结束后计算在验证集上的准确率 valid_accuracy = sess.run(accuracy, feed_dict={x: mnist.validation.images, y: mnist.validation.labels}) print('Epoch {:<3} - Validation Accuracy: {}'.format(epoch, valid_accuracy)) # 在测试集上测试模型 test_accuracy = sess.run(accuracy, feed_dict={x: mnist.test.images, y: mnist.test.labels}) print('Test Accuracy: {}'.format(test_accuracy)) ``` 运行该代码可以得到手写数字识别模型在测试集上的准确率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

仲子_real

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值