强化学习(2)-算法总论

本文介绍了深度强化学习(DRL)的基本模型,包括actor和critic两个核心部分。DQN是首个DRL算法,侧重于价值网络的设计和更新。A3C算法在DQN基础上引入了优势函数A和异步训练,使得评价更精确。此外,文章还提及了POMDP的概念,区别于MDP,它基于状态的概率分布来决定动作。
摘要由CSDN通过智能技术生成

DRL的基本模型:

在这里插入图片描述
DRL算法大框架:
在这里插入图片描述
大脑的执行机构-actor: 输入状态s,输出动作a(policy gradient算法)
大脑的评判机构-critrc:根据回馈r(外界给的)进行调整。(Q learning)
人类也是在本能和价值观影响作用下进行行为,并且价值受经验的影响不断改变。
在actor-critic的框架下:有DQN、A3C、UNREAL等算法提出。
DQN-
在这里插入图片描述
第一个提出的DRL算法,输出动作有限情况可用。仅有critic模块。critic模块重新表示为value network。
算法:基于价值网络,我们可以遍历某个状态s下各种动作的价值,然后选择价值最大的一个动作输出。
重点:value network怎么设计,每个动作的价值如何计算。怎么更新每个动作的价值。
针对更新问题:我们要有一个目标Q(价值)(根据bellman公式迭代),和现在的Q进行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值