在DQN代码中关于tf.stop_gradient的认识
记录一下今天遇到的这个问题,方便以后反过头来继续查阅。
在学习莫烦python强化学习中DQN这一节时,莫烦大佬给出了两种DQN代码,大致框架都是一致的,但是仔细一读就会发现在DQN_modified.py文件中对于target_net训练出的结果直接加入到loss值的计算,而RL_brain.py中单独添加了placeholder,将target_net的结果通过placeholder传入ev...
原创
2018-10-24 15:28:09 ·
1665 阅读 ·
0 评论