强化学习任务
1.分析强化学习与监督学习的联系与差别。
- 联系:模型形式并无差别,存在着对应关系。
强化学习 | 监督学习 |
---|---|
状态 | 示例 |
动作 | 标记 |
策略 | 分类器或回归器 |
- 差别:
监督学习:示例 ⇒ \Rightarrow ⇒标记
强化学习:示例 ⇒ \Rightarrow ⇒延迟标记信息
没有人直接告诉机器在什么状态下应该做什么动作,只有等到最终结果知晓,才能通过“反思”之前的动作是否正确来进行学习。故强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。
2. ϵ \epsilon ϵ-贪心法如何实现探索与利用的平衡。
ϵ \epsilon ϵ-贪心法基于一个概率来对探索和利用进行折中:每次尝试时,以 ϵ \epsilon ϵ的概率进行探索,即以均匀概率随机选取一个摇臂;以1- ϵ \epsilon ϵ的概率进行利用,即选择当前平均奖赏最高的摇臂(若有多个,则随机选择一个)。
3.如何用赌博机算法实现强化学习任务。
对于离散状态空间、离散动作空间上的多步强化学习任务,一种直接的办法是将每个状态上动作的选择看作一个K-摇臂赌博机问题,用强化学习任务的累积奖赏来代替K-摇臂赌博机算法中的奖赏函数,即可将赌博机算法用于每个状态:对每个状态分别记录各动作的尝试次数、当前平均累积奖赏等信息,基于赌博机算法选择要尝试的动作。
4.试推导 折扣累积奖赏的全概率展开式(16.8)。
5.什么是动态规划中的最优性原理,与强化学习中的策略更新有什么关系
- 动态规划的最优性原理:
多阶段决策过程的特点是每个阶段都要进行决策,具有n个阶段的决策过程的策略是由n个相继进行的阶段决策构成的决策序列。由于前阶段的终止状态又是后一阶段的初始状态,因此确定阶段最优决策不能只从本阶段的效应出发,必须通盘考虑,整体规划。就是说,阶段k的最优决策不应只是本阶段的最优,而必须是本阶段及其所有后续阶段的总体最优,即关于整个后部子过程的最优决策。
对此,贝尔曼在深入研究的基础上,针对具有无后效性的多阶段决策过程的特点,提出了著名的多阶段决策的最优性原理:
“整个过程的最优策略具有这样的性质:即无论过程过去的状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优策略。”
简而言之,最优性原理的含意就是:最优策略的任何一部分子策略也必须是最优的。
6.完成时序差分学习中式(16.31)的推导。
7.对于目标驱动的强化学习任务,目标是到达某一状态,例如机器人走到预定的位置,假设机器人只能在一维空间运动,即只能向左或者向右运动,机器人起始位置在最左侧,预定的位置在最右侧,试为这样的任务设置奖赏规则,并编程实现。
(程序参考: