David Silver《强化学习RL》第三讲动态规划寻找最优策略

最新推荐文章于 2024-08-10 11:44:01 发布

xyk_hust

最新推荐文章于 2024-08-10 11:44:01 发布

阅读量1.7k

点赞数 2

分类专栏：强化学习理论强化学习理论文章标签： David Silver 动态规划寻找最优策略

本文链接：https://blog.csdn.net/xyk_hust/article/details/85537174

版权

本讲深入探讨动态规划在强化学习中的应用，包括策略评估和策略迭代，阐述了如何在已知模型下寻找最优策略和最优价值函数。通过动态规划算法解决马尔科夫决定过程中的规划问题，涉及预测和控制。介绍了迭代法策略评估、价值迭代和策略迭代，并通过实例展示了这些方法的实际应用。

摘要由CSDN通过智能技术生成

本讲着重讲解了利用动态规划来进行强化学习，具体是进行强化学习中的“规划”，也就是在已知模型的基础上判断一个策略的价值函数，并在此基础上寻找到最优的策略和最优价值函数，或者直接寻找最优策略和最优价值函数。本讲是整个强化学习课程核心内容的引子。

简介 Introduction

动态规划算法是解决复杂问题的一个方法，算法通过把复杂问题分解为子问题，通过求解子问题进而得到整个问题的解。在解决子问题的时候，其结果通常需要存储起来被用来解决后续复杂问题。当问题具有下列特性时，通常可以考虑使用动态规划来求解：第一个特性是：一个复杂问题的最优解由数个小问题的最优解构成，可以通过寻找子问题的最优解来得到复杂问题的最优解；第二个特性是：子问题在复杂问题内重复出现，使得子问题的解可以被存储起来重复利用。

马尔科夫决定过程（MDP）具有上述两个属性：Bellman方程把问题递归为求解子问题，价值函数就相当于存储了一些子问题的解，可以复用。因此可以使用动态规划来求解MDP。

我们用动态规划算法来求解一类称为“规划”的问题。“规划”指的是在了解整个MDP的基础上求解最优策略，也就是清楚模型结构的基础上：包括状态行为空间、转换矩阵、奖励等。这类问题不是典型的强化学习问题，我们可以用规划来进行预测和控制。

具体的数学描述是这样：

预测：给定一个MDP $<S, A, P, R, \gamma>$ 和策略 $\pi$ ，或者给定一个MRP $<S, P^{\pi}, R^{\pi}, \gamma>$ ，要求输出基于当前策略π的价值函数 $V_{\pi}$ 。