强化学习-Q-learning FrozenLake-V0 实现
DQN算法是QLearning算法的延伸,在大多数实际场景中,Q值表的状态空间会很大,构建Q值表的方式就不太行得通,因此通过引入神经网络来学习拟合状态空间,解决状态空间过大而不方便维护更新Q值表的问题。
首先定义一个Agent类,sample函数就是使用epsilon-greedy的采样方法,predict则是根据当前的观察值来预测输出的动作,learn就是通过输入当前的观察值obs,当前的动作action,奖励reward以及下一个时刻的观察值next_obs来更新Q值表。
代码:
class Q
原创
2020-06-26 18:33:12 ·
4382 阅读 ·
1 评论