【无标题】

RL02–马尔可夫决策过程

马尔可夫链以及马尔可夫奖励过程

如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。 就是说未来的转移跟过去是独立的,它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。
状态转移矩阵(State Transition Matrix) 每一行描述了是从一个节点到达所有其它节点的概率。
马尔可夫奖励过程(Markov Reward Process, MRP) 是马尔可夫链再加上了一个奖励函数。奖励函数 R 是一个期望,到达某个状态,获得某个奖励,额外还定义了一个discount factor γ,如果状态数是有限的,R 可以是一个向量。

Horizon 指一个序列的长度
Return(回报) 指一个序列带来的奖励总和。
state value function 对于之前的回报取某状态的条件期望

计算价值函数:从某一状态开始采样多条轨迹,把每一条轨迹的Return计算出来取一个平均。
通过上式推导出Bellman Equation(贝尔曼等式):当前奖励加未来奖励的折扣总和。

将其写成矩阵乘法形式后,可以通过解析解求得V。复杂度是 O(N3),只适用于很小量的 MRP。
可以通过迭代的方法来解这种状态非常多的 MRP(large MRPs):动态规划、蒙特卡罗的办法(通过采样的办法去计算它),时序差分学习(Temporal-Difference Learning)的办法。 Temporal-Difference Learning 叫 TD Leanring,它是动态规划和蒙特卡罗的一个结合。

Markov Decision Process(MDP)

相对于 MRP,马尔可夫决策过程(Markov Decision Process)多了一个 decision,其它的定义跟 MRP 都是类似的:多了一个决策、多了一个动作。
未来的状态依赖于当前的状态于采取的动作。价值函数也多了一个动作。
Q函数 (action-value function): 其定义的是某一个状态某一个行为,对应的它有可能得到的 return 的一个期望(over policy function)。

MDP中的prediction(即policy evaluation问题): 给定一个 MDP 以及一个 policy \piπ ,去计算它的 value function,即每个状态它的价值函数是多少。其可以通过动态规划方法(Iterative Algorithm)解决。

MDP中的control问题: 寻找一个最佳的一个策略,它的 input 就是MDP,输出是通过去寻找它的最佳策略,然后同时输出它的最佳价值函数(optimal value function)以及它的这个最佳策略(optimal policy)。其可以通过动态规划方法(Iterative Algorithm)解决。

最佳价值函数(Optimal Value Function): 我们去搜索一种 policy \piπ ,然后我们会得到每个状态它的状态值最大的一个情况,v^*v

就是到达每一个状态,它的值的极大化情况。在这种极大化情况上面,我们得到的策略就可以说它是最佳策略(optimal policy)。optimal policy 使得每个状态,它的状态函数都取得最大值。所以当我们说某一个 MDP 的环境被解了过后,就是说我们可以得到一个 optimal value function,然后我们就说它被解了。

补充

公式推导晕掉了… 挖个坑,补一下条件期望和动态规划这部分再回头把这些公式撸掉!!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值