RL算法介绍及比较

最新推荐文章于 2024-08-13 08:46:05 发布

Lucy_Qian

最新推荐文章于 2024-08-13 08:46:05 发布

阅读量1.6w

点赞数 2

文章标签：强化学习游戏星际争霸 UCT DQN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoqianlizhen/article/details/81515215

版权

主要介绍的算法有：Q Learning、Sarsa、Sarsa(lamda)、TD、Policy Gradient、AC、A3C、DQN、DoubleDQN、DuelingDQN、DDPG、MCTS、UCT

（1）Q Learning：建立Q值表，根据当前state预测Q值，用查表的方式选择action。是value-based方法。

（2）Sarsa：与QL不同的是先根据当前state选action，再更新Q值表。是value-based方法。

（3）Sarsa(lamda)：lamda==0，单步更新；lamda==1，回合更新；lamda属于[0,1]，根据action距离目标的距离设置不同的权重来更新。

（4）TD：时间差分方法，方差小。是value-based方法。

（5）Policy Gradient：action可以是连续的，可能学习速度会很慢，根据当前state预测action。是policy-based方法。

（6）AC：是策略（policy-based）和值（value-based）方法的结合，根据reward值学习更新策略。

action-criticç»æå¾

（7）A3C：有效利用计算资源提升计算效率，并行计算后合并。每个小部分都

最低0.47元/天解锁文章

关注

2
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。