强化学习——Task02 表格型方法及马尔科夫决策

最新推荐文章于 2021-01-01 20:32:37 发布

Smaller.孔

最新推荐文章于 2021-01-01 20:32:37 发布

阅读量197

点赞数

文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_45373427/article/details/109251595

版权

强化学习——Task02 表格型方法及马尔科夫决策

1.马尔可夫决策过程（MDP)

在这里插入图片描述
强化学习的三个重要的要素：状态、动作和奖励。强化学习智能体跟环境是一步一步交互的，就是我先观察一下状态，然后再输入动作。再观察一下状态，再输出动作，拿到这些 reward 。它是一个跟时间相关的序列决策的问题。
在这里插入图片描述

2.Q-table

在这里插入图片描述
这张表格里面 Q 函数的意义就是我选择了这个动作之后，最后面能不能成功，就是我需要去计算在这个状态下，我选择了这个动作，后续能够一共拿到多少总收益。如果可以预估未来的总收益的大小，我们当然知道在当前的这个状态下选择哪个动作，价值更高。我选择某个动作是因为我未来可以拿到的那个价值会更高一点。所以强化学习的目标导向性很强，环境给出的 reward 是一个非常重要的反馈，它就是根据环境的 reward 来去做选择。
在这里插入图片描述
Q: 为什么可以用未来的总收益来评价当前这个动作是好是坏?

A: 举个例子，假设一辆车在路上，当前是红灯，我们直接走的收益就很低，因为违反交通规则，这就是当前的单步收益。可是如果我们这是一辆救护车，我们正在运送病人，把病人快速送达医院的收益非常的高，而且越快你的收益越大。在这种情况下，我们很可能应该要闯红灯，因为未来的远期收益太高了。这也是为什么强化学习需要去学习远期的收益，因为在现实世界中奖励往往是延迟的，是有 delay 的。所以我们一般会从当前状态开始，把后续有可能会收到所有收益加起来计算当前动作的 Q 的价值，让 Q 的价值可以真正地代表当前这个状态下，动作的真正的价值。
在这里插入图片描述
但有的时候你把目光放得太长远不好，因为如果事情很快就结束的话，你考虑到最后一步的收益无可厚非。如果是一个持续的没有尽头的任务，即持续式任务(Continuing Task)，你把未来的收益全部相加，作为当前的状态价值就很不合理。股票的例子就很典型了，我们要关注的是累积的收益。可是如果说十年之后才有一次大涨大跌，你显然不会把十年后的收益也作为当前动作的考虑因素。那我们会怎么办呢，有句俗话说得好，对远一点的东西，我们就当做近视，就不需要看得太清楚，我们可以引入这个衰减因子γ 来去计算这个未来总收益，γ∈[0,1]，越往后 γ ^n就会越小，也就是说越后面的收益对当前价值的影响就会越小。

3.Temporal Difference

在这里插入图片描述
为了让大家更加直观感受下一个状态影响上一个状态，推荐这个网站：Temporal Difference Learning Gridworld Demo。

我们先初始化一下，然后开始时序差分的更新过程。在训练的过程中，你会看到这个小黄球在不断地试错，在探索当中会先迅速地发现有 reward 的地方。最开始的时候，只是这些有 reward 的格子才有价值。当不断地重复走这些路线的时候，这些有价值的格子可以去慢慢地影响它附近的格子的价值。反复训练之后，有 reward 的这些格子周围的格子的状态就会慢慢地被强化，强化就是当它收敛到最后一个最优的状态了，就是把这些价值最终收敛到一个最优的情况之后，那个小黄球就会自动地知道，就是我一直往价值高的地方走，就能够走到能够拿到 reward 的地方。
在这里插入图片描述

4.Sarsa: On-policy TD Control

在这里插入图片描述
Sarsa 是一种 on-policy 策略。Sarsa 优化的是它实际执行的策略，它直接拿下一步会执行的 action 来去优化 Q 表格，所以 on-policy 在学习的过程中，只存在一种策略，它用一种策略去做 action 的选取，也用一种策略去做优化。
在这里插入图片描述

Smaller.孔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习——Task02 表格型方法及马尔科夫决策

强化学习——Task02 表格型方法及马尔科夫决策1.马尔可夫决策过程（MDP)2.Q-table3.Temporal Difference4.Sarsa: On-policy TD Control1.马尔可夫决策过程（MDP)强化学习的三个重要的要素：状态、动作和奖励。强化学习智能体跟环境是一步一步交互的，就是我先观察一下状态，然后再输入动作。再观察一下状态，再输出动作，拿到这些 reward 。它是一个跟时间相关的序列决策的问题。2.Q-table这张表格里面 Q 函数的意义就是我选择
复制链接

扫一扫