学习卷积神经网络之前,听前辈们说过一些关于一次喂入的训练数据集对收敛的影响。
当时也半懂不懂的一只耳朵进一只耳朵出就没怎么当回事就过去了。
现在真正走到这一步的时候才发现这还是个不小的坑。
于是赶紧google了一波并记录下来。
------------------------------------先来看一个栗子-----------------------------------------
测试背景:20000张猫狗图片,epochs=200
环境1:GTX950M(2G),batch_size=40
环境2:GTX1070(8G),batch_size=125
因为是在两台不同的电脑上训练的,一台是我的笔记本一台台式机。年少无知的我这就奇了怪了,差距还不小,难道训练结果好坏还分显卡?我寻思着也不对呀,硬件层面的计算工作怎么可能会影响算法结果的好坏呢?
毕竟也是接受过九年义务教育的共产主义接班人,那就采用单一变量原则吧,我把两边的代码统一了,先从最可疑的b