Momentum是为了对冲mini-batch带来的抖动。
RMSprop是为了对hyper-parameter进行归一,均方根反向传播(RMSProp)。
这两个加起来就是Adam
看原始的RMSProp算法:
再看算法:其实就是Momentum+RMSProp的结合,然后再修正其偏差。
Momentum是为了对冲mini-batch带来的抖动。
RMSprop是为了对hyper-parameter进行归一,均方根反向传播(RMSProp)。
这两个加起来就是Adam
看原始的RMSProp算法:
再看算法:其实就是Momentum+RMSProp的结合,然后再修正其偏差。