增强学习 - MDPs - TD Learning（Sarsa & Q-Learning）

最新推荐文章于 2023-03-11 21:38:47 发布

OldBibi

最新推荐文章于 2023-03-11 21:38:47 发布

阅读量282

点赞数 1

分类专栏：增强学习文章标签： MDP Sarsa Q-Learning python 增强学习

本文链接：https://blog.csdn.net/weixin_43909872/article/details/85928217

版权

增强学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

TD Learning - Temporal Difference Learning

前面的蒙特卡洛方法：https://blog.csdn.net/weixin_43909872/article/details/85873569
蒙特卡洛方法需要完整的episode去做分析计算，但很多情况下我们无法得到完整的episode链，这时候可以使用TD learning方法，在线时序差分学习。

具体算法如下：
在这里插入图片描述
David Silver的ppt中有三张图，很清楚的对比了MC，TD以及DP的不同：

在这里插入图片描述

Sarsa

算法：主要就是中间计算Q（S,A）的部分
在这里插入图片描述
对于我们的例子gridworld：
o o o o o o o o o o
o o o o o o o o o o
o o o o o o o o o o
x o o o o o o T o o
o o o o o o o o o o
o o o o o o o o o o
o o o o o o o o o o

主要代码：

            # Pick the next action
            next_action_probs = policy(next_state)
            next_action = np.random.choice(np.arange(len(next_action_probs)), p=next_action_probs)

            # Update statistics
            stats.episode_rewards[i_episode] += reward
            stats.episode_lengths[i_episode] = t

            # TD Update
            td_target = reward + discount_factor * Q[next_state][next_action]

运算结果：
在这里插入图片描述

Q-Learning

算法如下，区别就在于计算Q（S,A)的时候用的是最好的Q（S’,a)，而不是选择的下一步。
所以Q-Learning是off-policy的，而Sarsa是on-policy的
在这里插入图片描述

Double-Q-Learning
在这里插入图片描述

Q-Learning的主要代码：

# Take a step
            action_probs = policy(state)
            action = np.random.choice(np.arange(len(action_probs)), p=action_probs)
            next_state, reward, done, _ = env.step(action)

            # Update statistics
            stats.episode_rewards[i_episode] += reward
            stats.episode_lengths[i_episode] = t

            # TD Update
            best_next_action = np.argmax(Q[next_state])
            td_target = reward + discount_factor * Q[next_state][best_next_action]

运算结果：
在这里插入图片描述

全部代码地址：
https://github.com/Neo-47/Reinforcement-Learning-Algorithms/tree/master/TD

OldBibi

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
增强学习 - MDPs - TD Learning（Sarsa & Q-Learning）

TD Learning - Temporal Difference Learning前面的蒙特卡洛方法：https://blog.csdn.net/weixin_43909872/article/details/85873569蒙特卡洛方法需要完整的episode去做分析计算，但很多情况下我们无法得到完整的episode链，这时候可以使用TD learning方法，在线时序差分学习。具...
复制链接

扫一扫

专栏目录