强化学习任务

强化学习任务

1.分析强化学习与监督学习的联系与差别。
  • 联系:模型形式并无差别,存在着对应关系。
强化学习 监督学习
状态 示例
动作 标记
策略 分类器或回归器
  • 差别:
    监督学习:示例 ⇒ \Rightarrow 标记
    强化学习:示例 ⇒ \Rightarrow 延迟标记信息

没有人直接告诉机器在什么状态下应该做什么动作,只有等到最终结果知晓,才能通过“反思”之前的动作是否正确来进行学习。故强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。

2. ϵ \epsilon ϵ-贪心法如何实现探索与利用的平衡。

   ϵ \epsilon ϵ-贪心法基于一个概率来对探索和利用进行折中:每次尝试时,以 ϵ \epsilon ϵ的概率进行探索,即以均匀概率随机选取一个摇臂;以1- ϵ \epsilon ϵ的概率进行利用,即选择当前平均奖赏最高的摇臂(若有多个,则随机选择一个)。

3.如何用赌博机算法实现强化学习任务。

  对于离散状态空间、离散动作空间上的多步强化学习任务,一种直接的办法是将每个状态上动作的选择看作一个K-摇臂赌博机问题,用强化学习任务的累积奖赏来代替K-摇臂赌博机算法中的奖赏函数,即可将赌博机算法用于每个状态:对每个状态分别记录各动作的尝试次数、当前平均累积奖赏等信息,基于赌博机算法选择要尝试的动作。

4.试推导 折扣累积奖赏的全概率展开式(16.8)。

在这里插入图片描述

5.什么是动态规划中的最优性原理,与强化学习中的策略更新有什么关系
  • 动态规划的最优性原理:

  多阶段决策过程的特点是每个阶段都要进行决策,具有n个阶段的决策过程的策略是由n个相继进行的阶段决策构成的决策序列。由于前阶段的终止状态又是后一阶段的初始状态,因此确定阶段最优决策不能只从本阶段的效应出发,必须通盘考虑,整体规划。就是说,阶段k的最优决策不应只是本阶段的最优,而必须是本阶段及其所有后续阶段的总体最优,即关于整个后部子过程的最优决策。
  对此,贝尔曼在深入研究的基础上,针对具有无后效性的多阶段决策过程的特点,提出了著名的多阶段决策的最优性原理:
“整个过程的最优策略具有这样的性质:即无论过程过去的状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优策略。”
  简而言之,最优性原理的含意就是:最优策略的任何一部分子策略也必须是最优的。

6.完成时序差分学习中式(16.31)的推导。

在这里插入图片描述

7.对于目标驱动的强化学习任务,目标是到达某一状态,例如机器人走到预定的位置,假设机器人只能在一维空间运动,即只能向左或者向右运动,机器人起始位置在最左侧,预定的位置在最右侧,试为这样的任务设置奖赏规则,并编程实现。

(程序参考:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值