1:weight decay
主要为了加入正则项,防止过拟合,过拟合的导致权值会变化;
2:权值的初始化为啥使用较小的数值?
因为权值过大的话,对于sigmoid的来说,容易导致数值在饱和区,反向传播导致梯度基本的不跟新;weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。
3:RMSProp方法是在限制了权值的波动范围,momentum是加速了梯度下降的方向,adam方法是以上两种方法的组合;
4:防止过拟合的方法