Deep Q learning算法分析
Step 1: 用一个深度神经网络来作为Q值的网络,参数为 ω
Q(s,a,ω)≈Qπ(s,a)
Step 2: 在Q值中使用均方差mean-square error 来定义目标函数objective function也就是loss function
L(ω)=E[(r+γ⋅maxa,Q(s,,a,,ω)
Deep Q learning算法分析
Step 1: 用一个深度神经网络来作为Q值的网络,参数为 ω
Step 2: 在Q值中使用均方差mean-square error 来定义目标函数objective function也就是loss function