网路介绍: 层数太深,变得难训练,特别是全连接层不要超过3层训练容易卡在输出值的均值附近(平坦期)减少batch size可以有效跨越训练的平坦期最差的GPU运算一半也有最好的cpu运算的10倍效率用小batch度过平坦期后,也需要加大batchsize。因为当小batch下降到一定程度之后,就一直会震荡了。