【强化学习】Sarsa 和 Sarsa(λ) 的区别

DQ_2023

已于 2023-02-28 16:19:22 修改

阅读量132

点赞数

文章标签：机器学习人工智能

于 2023-02-28 16:08:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45743949/article/details/129263337

版权

在这里插入图片描述

Sarsa在状态发生变化后仅仅对前一状态行为对的Q值进行更新，而不会更新其他Q值。

Sarsa(λ)在状态每次发生变化后都会对整个状态空间的Q和E进行更新，会体现出获得当前奖励/惩罚对到达当前过程中的状态行为对的影响。它表现的是一个结果与某一个状态行为对的因果关系，与得到该结果最近的状态行为对，以及那些在此之前频繁发生的状态行为对得到这个结果的影响最大。（假设当前误差δt，则会对之前过程中的状态行为对的q值都进行一定程度的修改）

因此在假定寻找一条完整路径的问题中，除了终点处即时奖励为1其他点即时奖励都为0，假定初始化Q为全0，使用这两种算法会发生如下的区别。在到达终点前Sarsa(λ)的所有Q值也都为0，但到达终点后，Sarsa(λ)的δt将不为0，因此会对所有状态行为对根据E进行更新，Q也不再都为0。
在这里插入图片描述
Sarsa(λ)中在每一个状态序列里，只有个体经历过的状态行为对的 E 才可能不为 0，为什么不仅仅对该状态序列涉及到的状态行为对进行更新呢？

答：因为我们不能通过先验的方式地知道整个状态序列中的状态行为对的信息（否则就等同于MC需要整个序列的信息），除非我们维护一个额外的表来纪录新出现的状态行为对，而往这个额外的表里添加新的状态行为对的E和Q值比更新总的状态行为空间要麻烦,特别是在早期个体没有一个较好的策略的时候需要花费很长时间才能找到终点位置,这在一定程度上反而没有更新状态空间省时。不过随着学习深入,策略得到优化,此表的规模会变小。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
【强化学习】Sarsa 和 Sarsa(λ) 的区别

【强化学习】Sarsa 和 Sarsa(λ) 的区别
复制链接

扫一扫

DQ_2023 CSDN认证博客专家 CSDN认证企业博客

码龄5年

2: 原创

171万+: 周排名

137万+: 总排名

548: 访问

: 等级

24: 积分

1: 粉丝

2: 获赞

2: 评论

4: 收藏

私信

关注

热门文章

最新评论

【强化学习】Sarsa 和 Sarsa(λ) 的区别
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

最新文章

【强化学习】价值迭代与策略迭代

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

DQ_2023 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。