On-line Learning: One pair of (X,Y') at a time step;
Off-line Learning: Pour all (X,Y') into the model at every time step;
OPTIMIZATION目的:
找到最合适的 θ 以便得到最小的 ∑xL(θ;x),或是找到最合适的 θ 以便得到最小的 L(θ)
OPTIMIZATION算法:
SDG:(Stochastic Gradient Descent)
η是Learning Rate,就是通过计算θ的Gradient后,根据公式对θ进行更新;以此反复,直到Gradient 0;
SDGM: SDG with Momentum
这里新增Momentum项,它还考虑之前的Movement,也可以说它不仅考虑当前Gradient,还考虑先前的Gradient;增加Momentum有助于对抗一些Critical Point,增加探索性;
ADAGRAD:
这是一种Adaptive方法,在 η下面除以一个式子,该式可以作用于:如果先前的Gradient较大,则此时更新的步幅小,而如果先前的Gradient教小,则可以更新的步幅大;也有用式,区别在于是否加入均值;
RMSProp:
也是一种Adaptive方法,和Adagrad区别只在于底部式子,新增一个参数,如果接近0,代表刚算出来的gi相较于之前算出的Gradient 比较重要,如果接近1 ,代表现在算出来的 gi相对不重要,而之前的算出来的Gradient比较重要。调整可以调整当前Gradient的比重,可以避免因初始Gradient大而一直影响Learning Rate的情况;
ADAM:
Adam将SGDM和RMSProp结合;
ADAM VS SGDM
ADAM: fast training, large generalization gap, unstable(速度快,但是不稳定)
SGDM: stable, little generalization gap, better convergence(稳定,但是速度慢)
SWATS结合了ADAM和SGDM,一开始用ADAM,结尾用SGDM;