初始化容量为 N 的经验池 D
使用随机值初始化作为 Q Q 神经网络的权值 θ
初始化目标神经网络,结构以及初始化权重 θ− θ − 和 Q Q 相同
For 游戏片段 = 1,循环M次:
初始化序列 并预处理 ϕ1=ϕ(s1) ϕ 1 = ϕ ( s 1 )
For t =1 ,循环T次:
根据概率
ε
ε
选择一个随机的动作
at
a
t
或者根据
argmaxaQ(ϕ(st,a;θ))
a
r
g
m
a
x
a
Q
(
ϕ
(
s
t
,
a
;
θ
)
)
的取值来选择动作
at
a
t
,
在环境中执行
at
a
t
,得到奖励
rt
r
t
和图像
xt+1
x
t
+
1
使 st+1=st s t + 1 = s t , at a t , xt+1 x t + 1 并使 ϕt+1=ϕ(st+1) ϕ t + 1 = ϕ ( s t + 1 )
将结果 (ϕt,at,rt,ϕt+1) ( ϕ t , a t , r t , ϕ t + 1 ) 存入 D D
随机从D中取出minibatch个状态
梯度下降更新 θ θ ,损失函数为 (yj−Q(ϕj,aj;θ))2 ( y j − Q ( ϕ j , a j ; θ ) ) 2
每 C C 步使