人工智能-强化学习02|HCNA-AI不得不了解的知识

最新推荐文章于 2022-02-09 12:50:00 发布

VIP文章阿南君

最新推荐文章于 2022-02-09 12:50:00 发布

阅读量2.3k

点赞数

文章标签：人工智能 HCNA-AI 强化学习

本文链接：https://blog.csdn.net/yeslab_alan/article/details/80925878

版权

强化学习（RL）的历史

强化学习的早期历史有两条主线，这两条主线冗长而又丰富，在历史长廊中独立成长，直至现代强化学习技术的兴起，它们才开始交织在一起。其中一条主线源于学习理论的心理学部分，即试错学习，这条主线贯穿了人工智能一些早期的成果，并导致了20世纪80年代初强化学习的复兴。

另一条主线则涉及使用值函数和动态规划的最优控制问题，大多数情况下，这条主线并不涉及学习理论。两条看似无关的研究线路最终被研究人员混合在一起，并由此衍生了第三条强化学习的研究主线，即时间差分方法。

所有三条研究主线在20世纪80年代后期汇集在一起，共同构建了现代强化学习的领域，而这一切的开始可以源于对一种控制系统的最优解决方案。

【试错学习（trial and error learning）】

试错学习指的是动物在反复过程中完成学习。如小鸟的啄食成功率随年龄而增加。研究者对涡虫、蚯蚓、蚂蚁、蜜蜂、鱼类、鸟类等动物进行试错实验，发现它们均有试错学习行为。要建立这种学习行为，动物必须先有某种欲求动机，对所欲求事物和某种刺激之间建立活动关系，然后发现这种刺激引发的自身活动是无法得到所欲求的事物，在反复尝试的过程中排除错误的活动方式直至成功。

Alan Turing在1948年的一份报告中描述了一种“pleasure-pain”学习系统：在某个场景中，当输入给系统的配置所引发的动作，不能达到确定完成目标的效果时，就随机丢弃一些刺激数据，当“痛苦”发生时所有输入被终止，而当“快乐”发生时所有输入被固定在这个场景，这是在人工智能领域最早应用试错学习的例子。但之后就进入了低潮期，很多本应在试错学习上有建树的人都转移到了监督学习上，毕竟监督学习有更易达到的目标。

在20世纪60年代，工程学文献首次使用了术语“强化”和“强化学习”来描述试错学习的工程应用（例如Waltz和Fu，1965; Mendel，1966; Fu，1970 ; Mendel和McClaren，1970）。特别有影响力的是Minsky的论文《Steps Toward Artificial Intelligence》（Minsky，1961），其中讨论了与试错学习相关的几个问题，包括预测，期望等。

最低0.47元/天解锁文章

阿南君

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
人工智能-强化学习02|HCNA-AI不得不了解的知识

强化学习（RL）的历史强化学习的早期历史有两条主线，这两条主线冗长而又丰富，在历史长廊中独立成长，直至现代强化学习技术的兴起，它们才开始交织在一起。其中一条主线源于学习理论的心理学部分，即试错学习，这条主线贯穿了人工智能一些早期的成果，并导致了20世纪80年代初强化学习的复兴。另一条主线则涉及使用值函数和动态规划的最优控制问题，大多数情况下，这条主线并不涉及学习理论。两条看似无关的研究线路最终被研...
复制链接

扫一扫