1.强化学习的基本结构是什么?
本质上是强化学习agent和Environment间的交互。agent从Environment中获取状态(State),然后输出一个Action,这个Action会加入到Environment中,并使得Environment输出一个新的State和Action得到的Reward。Agent在Environment中存在的目的 就是为了使得积累的Reward极大化。
2.强化学习相对于监督学习为什么训练会更加困难?(强化学习的特征)
- 数据间的相关性:监督学习的训练数据之间是没有关联的,即它们服从i.i.d分布(独立同分布),而强化学习的数据之间有一定的关联性。
- 延迟奖励:监督学习agent在做出每一个action后,都能立即得到一个反馈,如果采取的行为是错误的话,还会给出正确的决定;而强化学习却不能,如果它的agent做出了一个错误的action,有时候可以立即得到指引,说它这个action是错误的,但不能得到正确的action,更难的是,做出的action要等到一段时间后才能知道这个行为行不行。
3.强化学习的基本特征有哪些?
- 通过探索环境来获得对这个环境的理解
- 强化学习Agent会从环境中得到延迟的奖励
- 在强化学习的过程中,时间非常重要,得到的数据都是有时间关联的
- Agent的行为会改变Environment的State,影响后面的数据
4.近几年强化学习发展迅速的原因?
- 有了更多的计算能力,更多的GPU,可以更快的做更多的试错(trail-and-error)的尝试
- 通过这种不同尝试使得Agent在这个环境里获得更多的信息,得到更多的Reward
- 我们有了这个端到端的一个训练,可以把特征提取和价值估计或者决策一块来优化,这样就可以得到一个更强的决策网络
5.观测和状态有什么关系?
6.对于一个强化学习Agent,它由什么组成?
7.根据强化学习Agent的不同,我们可以将其分为几类?
8.基于策略迭代和基于价值迭代的强化学习方法有什么区别?
9.有模型(model-based)和免模型(model-free)有什么区别?
10.强化学习的通俗理解