DQN学习步骤

初始化容量为 N 的经验池 D

使用随机值初始化作为 Q Q 神经网络的权值 θ

初始化目标神经网络Q^,结构以及初始化权重 θ θ − Q Q 相同

For 游戏片段 = 1,循环M次:

  初始化序列 s1={x1} 并预处理 ϕ1=ϕ(s1) ϕ 1 = ϕ ( s 1 )

  For t =1 ,循环T次:

    根据概率 ε ε 选择一个随机的动作 at a t
    或者根据 argmaxaQ(ϕ(st,a;θ)) a r g m a x a Q ( ϕ ( s t , a ; θ ) ) 的取值来选择动作 at a t
    在环境中执行 at a t ,得到奖励 rt r t 和图像 xt+1 x t + 1

    使 st+1=st s t + 1 = s t , at a t , xt+1 x t + 1 并使 ϕt+1=ϕ(st+1) ϕ t + 1 = ϕ ( s t + 1 )

    将结果 (ϕt,at,rt,ϕt+1) ( ϕ t , a t , r t , ϕ t + 1 ) 存入 D D

    随机从D中取出minibatch个状态

yj={rj如果游戏片段在第j+1步结束rj+γmaxaQ^(ϕj+1,a,;θ)其他

    梯度下降更新 θ θ ,损失函数为 (yjQ(ϕj,aj;θ))2 ( y j − Q ( ϕ j , a j ; θ ) ) 2

    每 C C 步使Q^=Q

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值