基于先前经验做出决定-利用
随机做出决定-探索
DQN除了上述探索策略还可以用其他策略,如softmax策略,贪心衰减策略
由于更新过程中目标深度强化学习网络也在变导致与投喂给DQN的一勺一勺数据不稳定,因此考虑采用目标网络策略来解决孩子不稳定的问题
适合拿来学习不断变化的网络
基于先前经验做出决定-利用
随机做出决定-探索
DQN除了上述探索策略还可以用其他策略,如softmax策略,贪心衰减策略
由于更新过程中目标深度强化学习网络也在变导致与投喂给DQN的一勺一勺数据不稳定,因此考虑采用目标网络策略来解决孩子不稳定的问题
适合拿来学习不断变化的网络