Tip1: 正则化的作用
损失函数在不加正则化项时容易overfitting,因此在自己实现的时候最好在损失函数中加上正则化这一项,这一项有助于使找到的参数比较小(参数小的函数非常较滑)。
Tip2: Adagrad的作用
在梯度下降中,如果learning rate 的值是固定不变的是不符合,当越接近损失函数最小值点移动步子应该最小的规则。Adagrad可以使learning rate在梯度下降的过程中,随着参数的更新而越来越小,这是科学的。
分母即为Adagrad的方法。
Tip3:Stochastic Gradient Descent可以使得训练更快一点
此方法看一个测试用例就会更新一次参数,速度要比看所有的测试用例更新一次参数快。