第5章 Monte Carlo蒙特卡洛方法

参考书籍: Reinforcement Learning An introduction
第二版 作者:Richard S. Sutton and Andrew G. Barto
以及此书的中文版《强化学习》

第5章 Monte Carlo蒙特卡洛方法

上一章:第4章:动态规划

1.介绍

这小节内容很重要,要是不懂的话,之后得强化学习算法都不能学得很好。因为很多算法都会使用蒙特卡洛法,而必须知道该方法的原理,解决什么样的问题,才能知道后面的强化学习的算法为什么要使用蒙特卡洛方法。
这一章开始考虑评估价值函数以及获得最优策略的第一种学习方法。 不同于上一章,这里我们不再假设我们对环境有完全的了解。 蒙特卡洛方法需要的仅仅是 经验*──与环境进行真实的或者模拟的交互所得到的状态,动作,奖励的样本序列。即,蒙特卡洛方法利用样本的数据来进行估计。 其中,从 真实 的经验学习是非常吸引人的,因为它在不需要关于环境动态的先验知识的情况下仍然能够获得最优的行为(策略); 而从 模拟 的经验学习也同样强大,虽然这时需要一个模型,但是这个模型仅仅用来产生样本, 并不是动态规划(DP)方法中所用到的所有转移概率的完整分布函数。 在相当多情况下我们很容易从目标的概率分布函数中进行抽样得到样本,可是很难获得这个分布的显式(具体)形式。
蒙特卡洛方法是基于对样本回报求平均的办法来解决强化学习的问题的为了保证能够得到良好定义的回报,这里我们定义蒙特卡洛方法仅适用于回合制任务。 就是说,我们假设我们的经验被分成一个个的回合,而且对每个回合而言,不管选择什么样的动作,都会结束。 只有在事件结束时,我们的价值估计和策略才会改变。蒙特卡洛方法因此能够写成逐个回合的增量形式,而不是逐步(在线)的形式。 术语“蒙特卡洛”被广泛的用于任何的在操作中引入了随机成分的估计方法。 这里我们使用它来表示基于平均整个回报的方法(区别于那些使用部分的回报的方法。我们将在下一章阐述)。
蒙特卡洛方法使用抽样以及对状态-动作对的 回报 求平均的办法很像我们在第二章中遇到的赌博机中使用的方法, 在第二章中我们也使用了抽样以及对每个动作的 奖励 求平均的方法。 他们主要的区别在于,我们现在有多种状态,每个表现地就像一个不同的赌博机问题 (就像一个联合-搜索或前后关联的赌博机),而且它们之间是相互关联的。 就是说,在一个状态下做出一个动作的回报依赖于本事件中这个状态之后的状态所做的动作。 因为所有动作选择都在学习中,所以从较早状态的角度来看,问题变得不稳定。

为了解决这种非平稳性,我们改变我们的办法,像我们在第四章中对动态规划方法(DP)所做的,使用广义策略迭代(GPI)。 之前动态规划我们依靠对MDP的了解来 计算 价值函数,这里我们从MDP的抽样回报中 学习 价值函数。 我们使用相同的办法去获得最优的价值函数和策略,即GPI中价值函数和对应的策略交互作用。 就像在动态规划(DP)的那章所做的,首先我们考虑预测的问题 (计算一个确定的随机策略 π 的价值 vπ 和 qπ ), 然后是策略提升,以及最后,控制的问题和解决它的广义策略迭代方法。 从动态规划(DP)中得到的这些想法都被推广到蒙特卡洛方法中,不过在这种情况下(指蒙特卡洛),我们只有样本经验

2 蒙特卡洛预测

我们开始考虑在给定策略的情况下,用蒙特卡洛方法学习状态-价值函数。 我们之前讲过,一个状态的价值等于从这个状态开始的期望回报──期望的累积未来折扣奖励。 一个显而易见的估计方法是,对经验中的所有的这个状态的回报求平均。 随着更多的回报被观察到,这个平均值会收敛于它的期望值,即期望回报。 这个想法根植于所有的蒙特卡洛方法中
具体来看,假设我们想要估计 vπ(s) 的值, 它表示遵循策略 π 的情况下,状态 s 的价值, 我们已经得到了一些回合,它们都遵循策略 π 并且都出现了状态 s 。 每当一个回合中出现状态 s,我们就说这是对状态 s 的一次 访问。 当然,在同一个回合中状态 s 可能被访问多次,我们称第一次为 s 的 首次访问。 所以我们有两种蒙特卡洛方法,一种只计算所有回合中首次访问状态 s 的平均回报, 以此作为 vπ(s) 的估计值,我们称之为 首次访问MC方法 ; 与之对应的,另一种方法计算所有回合中每次访问状态 s 的平均回报,我们称之为 每次访问MC方法 。 上述的两种方法很相似,但是具有细微不同的理论特性。 第一种方法(指首次访问MC方法)被广泛研究可追溯到十九世纪四十年代,所以我们这一章主要关注这种方法。 至于第二种方法呢,我们将在第九章和第十二章分别作为函数近似和资格迹(eligibility traces)的扩展。 首次访问MC方法如下所示。每次访问MC方法和首次访问MC方法是相同的,除了没有检查在回合中早些时候发生过 St。

在这里插入图片描述
下面理解动态规划和蒙特卡洛的重点

我们可以通过蒙特卡洛(下图右)与动态规划的图表(下图左)对比发现, 首先,动态规划(DP)的图表展示了所有的转移可能,列出了所有可能的下一状态,而蒙特卡洛(MC)在一个回合里只有一种转移可能。 其次,动态规划(DP)只包含了单步的转移状态价值,而蒙特卡洛(MC)表示一个回合从开始到结束的所有状态价值。 这些图表所表现的不同精确地反应了这

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值