人工智能-强化学习02|HCNA-AI不得不了解的知识

强化学习(RL)的历史

强化学习的早期历史有两条主线,这两条主线冗长而又丰富,在历史长廊中独立成长,直至现代强化学习技术的兴起,它们才开始交织在一起。其中一条主线源于学习理论的心理学部分,即试错学习,这条主线贯穿了人工智能一些早期的成果,并导致了20世纪80年代初强化学习的复兴。

另一条主线则涉及使用值函数和动态规划的最优控制问题,大多数情况下,这条主线并不涉及学习理论。两条看似无关的研究线路最终被研究人员混合在一起,并由此衍生了第三条强化学习的研究主线,即时间差分方法。

所有三条研究主线在20世纪80年代后期汇集在一起,共同构建了现代强化学习的领域,而这一切的开始可以源于对一种控制系统的最优解决方案。

【试错学习(trial and error learning)】

试错学习指的是动物在反复过程中完成学习。如小鸟的啄食成功率随年龄而增加。研究者对涡虫、蚯蚓、蚂蚁、蜜蜂、鱼类、鸟类等动物进行试错实验,发现它们均有试错学习行为。要建立这种学习行为,动物必须先有某种欲求动机,对所欲求事物和某种刺激之间建立活动关系,然后发现这种刺激引发的自身活动是无法得到所欲求的事物,在反复尝试的过程中排除错误的活动方式直至成功。

Alan Turing在1948年的一份报告中描述了一种“pleasure-pain”学习系统:在某个场景中,当输入给系统的配置所引发的动作,不能达到确定完成目标的效果时,就随机丢弃一些刺激数据,当“痛苦”发生时所有输入被终止,而当“快乐”发生时所有输入被固定在这个场景,这是在人工智能领域最早应用试错学习的例子。但之后就进入了低潮期,很多本应在试错学习上有建树的人都转移到了监督学习上,毕竟监督学习有更易达到的目标。

在20世纪60年代,工程学文献首次使用了术语“强化”和“强化学习”来描述试错学习的工程应用(例如Waltz和Fu,1965; Mendel,1966; Fu,1970 ; Mendel和McClaren,1970)。 特别有影响力的是Minsky的论文 《Steps Toward Artificial Intelligence》(Minsky,1961),其中讨论了与试错学习相关的几个问题,包括预测,期望等。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值