强化学习任务

最新推荐文章于 2024-05-31 14:00:40 发布

yk40809

最新推荐文章于 2024-05-31 14:00:40 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：强化学习西瓜书

本文链接：https://blog.csdn.net/yk40809/article/details/96190348

版权

强化学习任务

1.分析强化学习与监督学习的联系与差别。

联系：模型形式并无差别，存在着对应关系。

强化学习	监督学习
状态	示例
动作	标记
策略	分类器或回归器

差别：
监督学习：示例 $\Rightarrow$ 标记
强化学习：示例 $\Rightarrow$ 延迟标记信息

没有人直接告诉机器在什么状态下应该做什么动作，只有等到最终结果知晓，才能通过“反思”之前的动作是否正确来进行学习。故强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。

2. $\epsilon$ -贪心法如何实现探索与利用的平衡。

$\epsilon$ -贪心法基于一个概率来对探索和利用进行折中：每次尝试时，以 $\epsilon$ 的概率进行探索，即以均匀概率随机选取一个摇臂；以1- $\epsilon$ 的概率进行利用，即选择当前平均奖赏最高的摇臂（若有多个，则随机选择一个）。

3.如何用赌博机算法实现强化学习任务。

对于离散状态空间、离散动作空间上的多步强化学习任务，一种直接的办法是将每个状态上动作的选择看作一个K-摇臂赌博机问题，用强化学习任务的累积奖赏来代替K-摇臂赌博机算法中的奖赏函数，即可将赌博机算法用于每个状态：对每个状态分别记录各动作的尝试次数、当前平均累积奖赏等信息，基于赌博机算法选择要尝试的动作。

4.试推导折扣累积奖赏的全概率展开式(16.8)。

在这里插入图片描述

5.什么是动态规划中的最优性原理，与强化学习中的策略更新有什么关系

动态规划的最优性原理：

多阶段决策过程的特点是每个阶段都要进行决策，具有n个阶段的决策过程的策略是由n个相继进行的阶段决策构成的决策序列。由于前阶段的终止状态又是后一阶段的初始状态，因此确定阶段最优决策不能只从本阶段的效应出发，必须通盘考虑，整体规划。就是说，阶段k的最优决策不应只是本阶段的最优，而必须是本阶段及其所有后续阶段的总体最优，即关于整个后部子过程的最优决策。
对此，贝尔曼在深入研究的基础上，针对具有无后效性的多阶段决策过程的特点，提出了著名的多阶段决策的最优性原理：
“整个过程的最优策略具有这样的性质：即无论过程过去的状态和决策如何，对前面的决策所形成的状态而言，余下的诸决策必须构成最优策略。”
简而言之，最优性原理的含意就是：最优策略的任何一部分子策略也必须是最优的。