视觉-增强学习
xin_q
这个作者很懒,什么都没留下…
展开
-
增强学习论文记录
< HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION > John Schulman, Philipp Moritz, Sergey Levine, Michael I. Jordan and Pieter Abbeel Department of Electrical Engineerin原创 2017-02-05 22:54:43 · 2194 阅读 · 1 评论 -
Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC
问题 采样复杂. 无偏的batch policy-gradient 提供了稳定学习.但是high variance. 使用 泰勒展开 …. 没看懂原创 2017-02-17 10:56:38 · 550 阅读 · 0 评论