【无标题】

最新推荐文章于 2024-09-12 19:02:20 发布

RnyWin

最新推荐文章于 2024-09-12 19:02:20 发布

阅读量80

点赞数

分类专栏：强化学习文章标签：算法

本文链接：https://blog.csdn.net/weixin_44166210/article/details/125805372

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

RL02–马尔可夫决策过程

马尔可夫链以及马尔可夫奖励过程

如果一个状态转移是符合马尔可夫的，那就是说一个状态的下一个状态只取决于它当前状态，而跟它当前状态之前的状态都没有关系。 就是说未来的转移跟过去是独立的，它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。
状态转移矩阵(State Transition Matrix) 每一行描述了是从一个节点到达所有其它节点的概率。
马尔可夫奖励过程(Markov Reward Process, MRP) 是马尔可夫链再加上了一个奖励函数。奖励函数 R 是一个期望，到达某个状态，获得某个奖励，额外还定义了一个discount factor γ，如果状态数是有限的，R 可以是一个向量。

Horizon 指一个序列的长度
Return(回报) 指一个序列带来的奖励总和。
state value function 对于之前的回报取某状态的条件期望

计算价值函数：从某一状态开始采样多条轨迹，把每一条轨迹的Return计算出来取一个平均。
通过上式推导出Bellman Equation（贝尔曼等式）：当前奖励加未来奖励的折扣总和。

将其写成矩阵乘法形式后，可以通过解析解求得V。复杂度是 O(N³),只适用于很小量的 MRP。
可以通过迭代的方法来解这种状态非常多的 MRP(large MRPs)：动态规划、蒙特卡罗的办法(通过采样的办法去计算它)，时序差分学习(Temporal-Difference Learning)的办法。 Temporal-Difference Learning 叫 TD Leanring，它是动态规划和蒙特卡罗的一个结合。

Markov Decision Process(MDP)

相对于 MRP，马尔可夫决策过程(Markov Decision Process)多了一个 decision，其它的定义跟 MRP 都是类似的:多了一个决策、多了一个动作。
未来的状态依赖于当前的状态于采取的动作。价值函数也多了一个动作。
Q函数 (action-value function)：其定义的是某一个状态某一个行为，对应的它有可能得到的 return 的一个期望（over policy function）。

MDP中的prediction（即policy evaluation问题）：给定一个 MDP 以及一个 policy \piπ ，去计算它的 value function，即每个状态它的价值函数是多少。其可以通过动态规划方法（Iterative Algorithm）解决。

MDP中的control问题：寻找一个最佳的一个策略，它的 input 就是MDP，输出是通过去寻找它的最佳策略，然后同时输出它的最佳价值函数(optimal value function)以及它的这个最佳策略(optimal policy)。其可以通过动态规划方法（Iterative Algorithm）解决。

最佳价值函数(Optimal Value Function)：我们去搜索一种 policy \piπ ，然后我们会得到每个状态它的状态值最大的一个情况，v^*v
∗
就是到达每一个状态，它的值的极大化情况。在这种极大化情况上面，我们得到的策略就可以说它是最佳策略(optimal policy)。optimal policy 使得每个状态，它的状态函数都取得最大值。所以当我们说某一个 MDP 的环境被解了过后，就是说我们可以得到一个 optimal value function，然后我们就说它被解了。