理论分析请参见参考文献1、2、6、7;算法思想及伪代码参见参考文献2,具体见下图:
policy gradient 的最基本方法-REINFORCE 方法
然后根据理论分析了莫烦的《Policy Gradients 算法更新 (Tensorflow)》和《Policy Gradients 思维决策 (Tensorflow)》,有了进一步理解。
参考文献7、8可能有用,先留着
参考文献:
1.
理论分析请参见参考文献1、2、6、7;算法思想及伪代码参见参考文献2,具体见下图:
然后根据理论分析了莫烦的《Policy Gradients 算法更新 (Tensorflow)》和《Policy Gradients 思维决策 (Tensorflow)》,有了进一步理解。
参考文献7、8可能有用,先留着
参考文献:
1.