深度神经网络需要调试的超参数(Hyperparameters)较多,包括:
- α \alpha α:学习因子
- β \beta β:动量梯度下降因子
- β 1 , β 2 , ϵ \beta_{1},\beta_{2},\epsilon β1,β2,ϵ:Adam算法参数
- layers:神经网络层数
- hidden units:隐藏层神经元个数
- learning rate decay:学习因子下降参数
- mini-batch-size:批量训练样本包含的样本个数
上面的超参数:
- β \beta β:动量梯度下降因子
- β 1 , β 2 , ϵ \beta_{1},\beta_{2},\epsilon β1,β2,ϵ:Adam算法参数
分别对应两种不同的优化算法:动量梯度下降算法与Adam算法
动量梯度下降算法的核心思想是在每次训练时,对梯度进行指数加权平均处理,然后用得到的梯度值更新权重 W W W和常数项 b b b。对梯度进行指数加权平均,这样使得当前梯度不仅与当前方向有关,还与之前方向有关,这样处理让梯度前进方向更加平滑,保证了梯度下降的平稳性与准确性,减少振荡,能够更快达到最小值处。动量梯度下降算法过程如下:
初始时,令 V d W