寻找利用神经网络识别手写数据集MNIST程序的最佳参数（learning_rate、nodes、epoch）

最新推荐文章于 2024-04-16 13:23:39 发布

仲子_real

最新推荐文章于 2024-04-16 13:23:39 发布

阅读量1.8k

点赞数 4

分类专栏： Python 文章标签：神经网络 python 算法人工智能

本文链接：https://blog.csdn.net/weixin_46076729/article/details/109110352

版权

Python 专栏收录该内容

3 篇文章 2 订阅

订阅专栏

寻找利用神经网络识别手写数据集MNIST程序的最佳参数（learning_rate、nodes、epoch）

在利用神经网络进行MNIST手写数据集进行识别时，部分参数是需要人为进行设置的，具有不确定性，本文按照英国人工智能领域硕士塔里克·拉希德（Tariq Rashid）先生的方法对于识别MNIST数据集的BP神经网络算法程序进行了多项参数测试，利用基本的控制变量法，试图寻找针对MNIST数据集识别的学习率、隐藏层节点数以及训练循环次数的最佳值，并验证塔里克·拉希德（Tariq Rashid）在书中得到的结论的准确性

利用神经网络算法识别手写数据集MNIST的程序原代码连接如下：
https://blog.csdn.net/weixin_46076729/article/details/108936565
读者可根据此代码进行测试。

注意：本文利用的是jupyter Notebook进行程序执行，需将建立神经网络的类的程序与训练神经网络的程序放在同一个Input框中，然后将验证神经网络的程序放在另一个框中进行执行，点击Jupyter的运行按钮两次，如果将程序放在同一个框中执行可能系统会出现报错。

由于程序一开始进行前向传播时，需要系统生成随机矩阵，所以为了避免由于系统产生随机数带来的偶然因素影响，每一次试验进行了三次运行，并最终取平均值进行分析。本文用MNIST数据集的6000条数据进行训练，用测试集的10000条数据进行验证，利用识别数据的准确率来表征算法识别的质量好坏。

下列表格中，score1、score2、score3表示三次平行测试的结果，average_value是三次测试结果的平均值。

一、对各项参数的分析

1、学习率（learing_rate）

控制变量：循环次数（epoch）=5；隐藏层节点数（nodes）=100

取其平均值用折线图表示如图所示：

显然，当learning rate=0.1的时候能够取得最高的准确率。

2、隐藏层节点数（nodes）

控制变量：学习率（learning rate）=0.3；循环次数（epoch）=2

取其平均值用折线图表示如图所示：

此外，本文还记录了运行程序所需要的时间，如下图所示：

根据上数两个图可以看出，当节点数达到一定数量时，算法的准去率会趋于一个稳定值，在这个稳定值上下波动。然而，从第二张图可以看出，随着节点数的增加，程序的计算量也进一步增加，节点数越多，程序所需运行的时间就越长，所以综合因素考虑，当节点数在150到200之间的时候基本为最佳值，在此范围内，可以获得较高的准确率，并且程序运行时间也较短，能够有效节约时间成本。

3、训练循环次数（epoch）

控制变量：学习率（learning rate）=0.3；隐藏层节点数（nodes）=100

取其平均值用折线图表示如图所示：

很明显，改变训练次数并不能提高神经网络的识别准确率，一开始认为数据出现了问题或者程序出现了问题，在经过一番思考后突然意识到，每次循环的时候，在前向传播阶段，系统都要先对输入层与隐藏层之间的权重矩阵进行随机赋值，数值符合正态分布，均值为0，标准差为隐藏层节点数的负二分之一次方，正因为计算机在每次循环的开头对权重矩阵的随机赋值，使得偶然性大大增加。每次循环都是重新开始，并不能对上一次的权重矩阵进行反向传播计算，所以才导致了上图所示的试验结果。

二、总结

通过控制变量对三项参数进行定量分析，从而找到利用BP神经网络对MNIST手写数据集进行识别的程序不确定性参数的最佳值，与塔里克·拉希德（Tariq Rashid）的结论基本一致，得到最佳学习率（learning rate）为0.1，最佳隐藏层节点数（nodes）为150到200之间。

[1] 《Python神经网络编程》 [英]塔里克·拉希德（Tariq Rashid）人民邮电出版社

（作为一个初学者来说，第一次学习神经网络与python，若文中有错误，欢迎大佬指正。）

仲子_real

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
3
评论
寻找利用神经网络识别手写数据集MNIST程序的最佳参数（learning_rate、nodes、epoch）

本文对于识别MNIST数据集的BP神经网络算法程序进行了多项参数测试，利用基本的控制变量法，试图寻找针对MNIST数据集识别的学习率、隐藏层节点数以及训练循环次数的最佳值。
复制链接

扫一扫