DRL的基本模型:
DRL算法大框架:
大脑的执行机构-actor: 输入状态s,输出动作a(policy gradient算法)
大脑的评判机构-critrc:根据回馈r(外界给的)进行调整。(Q learning)
人类也是在本能和价值观影响作用下进行行为,并且价值受经验的影响不断改变。
在actor-critic的框架下:有DQN、A3C、UNREAL等算法提出。
DQN-
第一个提出的DRL算法,输出动作有限情况可用。仅有critic模块。critic模块重新表示为value network。
算法:基于价值网络,我们可以遍历某个状态s下各种动作的价值,然后选择价值最大的一个动作输出。
重点:value network怎么设计,每个动作的价值如何计算。怎么更新每个动作的价值。
针对更新问题:我们要有一个目标Q(价值)(根据bellman公式迭代),和现在的Q进行