强化学习（2）-算法总论

最新推荐文章于 2024-04-11 10:20:03 发布

zixufang

最新推荐文章于 2024-04-11 10:20:03 发布

阅读量315

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yagreenhand/article/details/88182140

版权

本文介绍了深度强化学习（DRL）的基本模型，包括actor和critic两个核心部分。DQN是首个DRL算法，侧重于价值网络的设计和更新。A3C算法在DQN基础上引入了优势函数A和异步训练，使得评价更精确。此外，文章还提及了POMDP的概念，区别于MDP，它基于状态的概率分布来决定动作。

摘要由CSDN通过智能技术生成

DRL的基本模型：

在这里插入图片描述
DRL算法大框架：

大脑的执行机构-actor：输入状态s，输出动作a（policy gradient算法）
大脑的评判机构-critrc：根据回馈r（外界给的）进行调整。（Q learning）
人类也是在本能和价值观影响作用下进行行为，并且价值受经验的影响不断改变。
在actor-critic的框架下：有DQN、A3C、UNREAL等算法提出。
DQN-
在这里插入图片描述
第一个提出的DRL算法，输出动作有限情况可用。仅有critic模块。critic模块重新表示为value network。
算法：基于价值网络，我们可以遍历某个状态s下各种动作的价值，然后选择价值最大的一个动作输出。
重点：value network怎么设计，每个动作的价值如何计算。怎么更新每个动作的价值。
针对更新问题：我们要有一个目标Q（价值）（根据bellman公式迭代），和现在的Q进行

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。