Sarsa & Sarsa(λ)

最新推荐文章于 2023-02-28 16:08:25 发布

Lezvin

最新推荐文章于 2023-02-28 16:08:25 发布

阅读量253

点赞数

分类专栏：强化学习笔记

本文链接：https://blog.csdn.net/x3464/article/details/108816211

版权

本文是根据莫烦老师的强化学习教程整理的Sarsa和Sarsa(λ)笔记。Sarsa与Q-Learning的主要区别在于Sarsa采用的实际行动进行更新，而Q-Learning则是估计的。Sarsa(λ)结合了单步更新与轨迹更新，λ参数控制衰减速度，λ=0对应回合更新，λ=1对应单步更新。

摘要由CSDN通过智能技术生成

跟着莫烦老师的强化学习教程时做的笔记，原贴：https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/

Sarsa

和Q-Learing的区别：

更新方式不同

Q Learing 估计出来的下一个action不一定会走，但是sarsa一定会走

import numpy as np
import pandas as pd


class RL(object):
    def __init__(self, action_space, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):
        self.actions = action_space  # a list
        self.lr = learning_rate
        self.gamma = reward_decay
        self.epsilon = e_greedy

        self.q_table = pd.