David Silver《强化学习RL》第三讲 动态规划寻找最优策略

本讲深入探讨动态规划在强化学习中的应用,包括策略评估和策略迭代,阐述了如何在已知模型下寻找最优策略和最优价值函数。通过动态规划算法解决马尔科夫决定过程中的规划问题,涉及预测和控制。介绍了迭代法策略评估、价值迭代和策略迭代,并通过实例展示了这些方法的实际应用。
摘要由CSDN通过智能技术生成

本讲着重讲解了利用动态规划来进行强化学习,具体是进行强化学习中的“规划”,也就是在已知模型的基础上判断一个策略的价值函数,并在此基础上寻找到最优的策略和最优价值函数,或者直接寻找最优策略和最优价值函数。本讲是整个强化学习课程核心内容的引子。

简介 Introduction

动态规划算法是解决复杂问题的一个方法,算法通过把复杂问题分解为子问题,通过求解子问题进而得到整个问题的解。在解决子问题的时候,其结果通常需要存储起来被用来解决后续复杂问题。当问题具有下列特性时,通常可以考虑使用动态规划来求解:第一个特性是:一个复杂问题的最优解由数个小问题的最优解构成,可以通过寻找子问题的最优解来得到复杂问题的最优解;第二个特性是:子问题在复杂问题内重复出现,使得子问题的解可以被存储起来重复利用。

马尔科夫决定过程(MDP)具有上述两个属性:Bellman方程把问题递归为求解子问题,价值函数就相当于存储了一些子问题的解,可以复用。因此可以使用动态规划来求解MDP。

我们用动态规划算法来求解一类称为“规划”的问题。“规划”指的是在了解整个MDP的基础上求解最优策略,也就是清楚模型结构的基础上:包括状态行为空间、转换矩阵、奖励等。这类问题不是典型的强化学习问题,我们可以用规划来进行预测控制

具体的数学描述是这样:

预测:给定一个MDP <S, A, P, R, \gamma>和策略 \pi ,或者给定一个MRP <S, P^{\pi}, R^{\pi}, \gamma> ,要求输出基于当前策略π的价值函数 V_{\pi} 。

控制:给定一个MDP <S, A, P, R, \gamma> ,要求确定最优价值函数 V_{*} 和最优策略 \pi_{*}

 

迭代法策略评估Iterative Policy Evaluation

  • 理论

问题:评估一个给定的策略π,也就是解决“预测”问题。

解决方案:反向迭代应用Bellman期望方程

具体方法:同步反向迭代,即在每次迭代过程中,对于第 k+1 次迭代,所有的状态s的价值用计算并更新该状态第 k+1 次迭代中使用的价值 ,其中s’是s的后继状态。

此种方法通过反复迭代最终将收敛至 V_{\pi} 。

也可以异步反向迭代

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值