文章目录 学习率衰减一些其他衰减法 学习率衰减 可以看到,随着训练过程减少learning rate 能够使得优化算法更好的达到最优值 epoch代表代数 每一次遍历整个训练集叫做一代 注意不是遍历一次mini-batch 而是整个batch 公式: α = 1 1 + d e c a y − r a t e ∗ e p o c h − n u m α 0 \alpha=\frac{1}{1+decay-rate*epoch-num}\alpha_0 α=1+decay−rate∗epoch−num1α0 一些其他衰减法