人类学习时,不是杂乱的学习,而是循序渐进的,先学习简单的再学习难的。所以作者提出了这样的训练策略,命名为课程学习。作者假设这样的训练方法可以加快训练的收敛速度,提高模型精度。即:非凸函数全局优化的一种策略。
1)贡献:
作者试图解释为什么以及什么时候这种学习策略是有效的。1、作者在不同的任务上进行了验证。2、提出了假设去解释为什么有效。3、实验结果表明课程学习起着正则化的作用。4、在凸优化任务上,课程学习也加快了向全局最优的收敛速度。
2)作者介绍了深度神经网络以及训练上的困难。
一些研究方法使用无监督预训练作为初始化,以便得到更好的结果。作者表示,课程学习类似无监督的预训练:可以得到更好的局部最优、同时作为一种正则。
3)一个课程为一种连续方法
连续方法在1980年提出,用于解决非凸优化问题。已经应用在计算化学问题中。对于一个优化问题Cλ(λ 参数反映了优化问题难易程度),先优化一个较为平滑的目标C0,然后逐渐增加λ 并且保持θ 是Cλ的局部最优,最终C1就是实际想要优化的问题。所以连续方法就是引入了一个训练序列:从简单的优化问题,逐渐过渡到要训练的问题。
理解:高中类别。目标是学完高中三年所有的知识。那么先学习简单的高一的,然后学习(高一+