强化学习(RL)的历史
强化学习的早期历史有两条主线,这两条主线冗长而又丰富,在历史长廊中独立成长,直至现代强化学习技术的兴起,它们才开始交织在一起。其中一条主线源于学习理论的心理学部分,即试错学习,这条主线贯穿了人工智能一些早期的成果,并导致了20世纪80年代初强化学习的复兴。
另一条主线则涉及使用值函数和动态规划的最优控制问题,大多数情况下,这条主线并不涉及学习理论。两条看似无关的研究线路最终被研究人员混合在一起,并由此衍生了第三条强化学习的研究主线,即时间差分方法。
所有三条研究主线在20世纪80年代后期汇集在一起,共同构建了现代强化学习的领域,而这一切的开始可以源于对一种控制系统的最优解决方案。
【试错学习(trial and error learning)】
试错学习指的是动物在反复过程中完成学习。如小鸟的啄食成功率随年龄而增加。研究者对涡虫、蚯蚓、蚂蚁、蜜蜂、鱼类、鸟类等动物进行试错实验,发现它们均有试错学习行为。要建立这种学习行为,动物必须先有某种欲求动机,对所欲求事物和某种刺激之间建立活动关系,然后发现这种刺激引发的自身活动是无法得到所欲求的事物,在反复尝试的过程中排除错误的活动方式直至成功。
Alan Turing在1948年的一份报告中描述了一种“pleasure-pain”学习系统:在某个场景中,当输入给系统的配置所引发的动作,不能达到确定完成目标的效果时,就随机丢弃一些刺激数据,当“痛苦”发生时所有输入被终止,而当“快乐”发生时所有输入被固定在这个场景,这是在人工智能领域最早应用试错学习的例子。但之后就进入了低潮期,很多本应在试错学习上有建树的人都转移到了监督学习上,毕竟监督学习有更易达到的目标。
在20世纪60年代,工程学文献首次使用了术语“强化”和“强化学习”来描述试错学习的工程应用(例如Waltz和Fu,1965; Mendel,1966; Fu,1970 ; Mendel和McClaren,1970)。 特别有影响力的是Minsky的论文 《Steps Toward Artificial Intelligence》(Minsky,1961),其中讨论了与试错学习相关的几个问题,包括预测,期望等。