寻找利用神经网络识别手写数据集MNIST程序的最佳参数(learning_rate、nodes、epoch)
在利用神经网络进行MNIST手写数据集进行识别时,部分参数是需要人为进行设置的,具有不确定性,本文按照英国人工智能领域硕士塔里克·拉希德(Tariq Rashid)先生的方法对于识别MNIST数据集的BP神经网络算法程序进行了多项参数测试,利用基本的控制变量法,试图寻找针对MNIST数据集识别的学习率、隐藏层节点数以及训练循环次数的最佳值,并验证塔里克·拉希德(Tariq Rashid)在书中得到的结论的准确性
利用神经网络算法识别手写数据集MNIST的程序原代码连接如下:
https://blog.csdn.net/weixin_46076729/article/details/108936565
读者可根据此代码进行测试。
注意:本文利用的是jupyter Notebook进行程序执行,需将建立神经网络的类的程序与训练神经网络的程序放在同一个Input框中,然后将验证神经网络的程序放在另一个框中进行执行,点击Jupyter的运行按钮两次,如果将程序放在同一个框中执行可能系统会出现报错。
由于程序一开始进行前向传播时,需要系统生成随机矩阵,所以为了避免由于系统产生随机数带来的偶然因素影响,每一次试验进行了三次运行,并最终取平均值进行分析。本文用MNIST数据集的6000条数据进行训练,用测试集的10000条数据进行验证,利用识别数据的准确率来表征算法识别的质量好坏。
下列表格中,score1、score2、score3表示三次平行测试的结果,average_value是三次测试结果的平均值。
一、对各项参数的分析
1、学习率(learing_rate)
控制变量:循环次数(epoch)=5;隐藏层节点数(nodes)=100
取其平均值用折线图表示如图所示:
显然,当learning rate=0.1的时候能够取得最高的准确率。
2、隐藏层节点数(nodes)
控制变量:学习率(learning rate)=0.3;循环次数(epoch)=2
取其平均值用折线图表示如图所示:
此外,本文还记录了运行程序所需要的时间,如下图所示:
根据上数两个图可以看出, 当节点数达到一定数量时,算法的准去率会趋于一个稳定值,在这个稳定值上下波动。然而,从第二张图可以看出,随着节点数的增加,程序的计算量也进一步增加,节点数越多,程序所需运行的时间就越长,所以综合因素考虑,当节点数在150到200之间的时候基本为最佳值,在此范围内,可以获得较高的准确率,并且程序运行时间也较短,能够有效节约时间成本。
3、训练循环次数(epoch)
控制变量:学习率(learning rate)=0.3;隐藏层节点数(nodes)=100
取其平均值用折线图表示如图所示:
很明显,改变训练次数并不能提高神经网络的识别准确率,一开始认为数据出现了问题或者程序出现了问题,在经过一番思考后突然意识到,每次循环的时候,在前向传播阶段,系统都要先对输入层与隐藏层之间的权重矩阵进行随机赋值,数值符合正态分布,均值为0,标准差为隐藏层节点数的负二分之一次方,正因为计算机在每次循环的开头对权重矩阵的随机赋值,使得偶然性大大增加。每次循环都是重新开始,并不能对上一次的权重矩阵进行反向传播计算,所以才导致了上图所示的试验结果。
二、总结
通过控制变量对三项参数进行定量分析,从而找到利用BP神经网络对MNIST手写数据集进行识别的程序不确定性参数的最佳值,与塔里克·拉希德(Tariq Rashid)的结论基本一致,得到最佳学习率(learning rate)为0.1,最佳隐藏层节点数(nodes)为150到200之间。
[1] 《Python神经网络编程》 [英]塔里克·拉希德(Tariq Rashid) 人民邮电出版社
(作为一个初学者来说,第一次学习神经网络与python,若文中有错误,欢迎大佬指正。)