昨天听了曾两度夺得NeurIPS强化学习赛事冠军的飞桨强化学习PARL团队核心成员科老师的课程,不得不说,满满的干货,于是今天打算再看一遍回放,并好好地做一下笔记。
在学习强化学习之前,我们先思考一下,我们想追求的智能是什么?
人类追求的智能是什么?
对人类来说,人的智能可以分为两部分:
- 一小部分是天生遗传的
- 绝大部分是要依靠我们出生之后的努力学习
后天的学习一般分两种:
- 一种是有前人的经验了,我们直接模仿,依葫芦画瓢。
- 另一种是没有任何的经验,我们只能在摸索中去前进和环境交互、探索
举个例子,一个人如果一出生就与世隔绝的话,他很有可能学不到任何东西。一个小孩,他从一出生开始就会挥一下胳膊、瞪一下腿,其实就已经开始和周围的环境产生的交互。交互会产生经验,小孩子会慢慢地知道做什么事情,大家会笑;做什么事情会被批评。
强化学习是一门灵感来源于心理学的学科。每个人都是过去经验的总和,你过去的经验造成了现在的你。
人类的智能是学习而来的,那人工智能可以像人类一样"学习"吗?
人工智能可以像人类一样"学习"吗?
答案是肯定的!
监督学习就是让人工智能像人类一样去模仿,给他一个样本,然后用神经网络训练一个模型,去学习怎么根据现有的样本预测新的数据
而更吸引人的是强化学习,他追求的是像人一样的自学,在没有人教学的情况下只能自己和环境交互,在交互中学习。这时又分为两种情况:
- 已知的环境,就好像有一张地图,可以提前规划路径
- 未知的环境,只能勇敢地探索与不断地试错
当然,在未知的环境里学习是更加困难的
科老师也推荐了一些资料,用于初学者学习:
强化学习的概念及应用
强化学习(Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
核心思想:
智能体agent在环境environment中学习,根据环境的状态state(或观测到的observation),执行动作action,并根据环境的反馈 reward(奖励)来指导更好的动作。
注意:从环境中获取的状态,有时候叫state,有时候叫observation,这两个其实一个代表全局状态,一个代表局部观测值,在多智能体环境里会有差别,但我们刚开始学习遇到的环境还没有那么复杂,可以先把这两个概念划上等号。
智能体通过分析经验数据来学习,什么样的情况下应该做什么事情,这其实和我们人类的学习是类似的: