强化学习
文章平均质量分 90
zhkmxx930
这个作者很懒,什么都没留下…
展开
-
[强化学习笔记专题(二)]Nature DQN
转自 我的博客DQN (Nature)一、 算法流程:定义可配置参数episode 数量 M最大仿真时间 T,ϵ−greedy\epsilon-greedyϵ−greedy参数ϵlow\epsilon_{low}ϵlow,ϵhigh\epsilon_{high}ϵhighbatch size NNN折扣率 γ\gammaγ,学习率 α\alphaα等优化器参数...原创 2019-02-19 23:24:15 · 2026 阅读 · 0 评论 -
[强化学习论文] (HDQN) Integrating Temporal Abstraction and Intrinsic Motivation
转自我的博客论文题目: Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation作者: Tejas D. Kulkarni, Karthik R. Narasimhan, Ardavan Saeedi, Joshua B. Tenenbau...原创 2019-02-19 23:26:17 · 1542 阅读 · 3 评论 -
强化学习专题笔记(一) 强化学习基础
转自 我的博客一、长期回报对于问题的简化,采用理想的MDP,简化问题到具有马尔科夫性,对于马尔科夫决策过程而言,在理想状态下,每一个行动都要为最终的目标最大化长期回报 而努力。max∑trt\max\sum_{t}{r_t}maxt∑rt但是很多情况下,仿真的时间维度较大,步数较多,甚至可以无限循环下去,这样的情况下我们需要引入一个可以和收敛的无穷数列,来替代我们最原始的长期...转载 2019-02-19 23:27:57 · 464 阅读 · 0 评论 -
PPO、GAE笔记
一、 重要性采样TRPO和PPO主要思想的数学基础是重要性采样重要性采样:$x_i $ 是从p(x)p(x)p(x)分布中采样得到的, 但是p(x)p(x)p(x)的值往往无法直接获得,需要通过其他分布q(x)q(x)q(x)进行间接采样获得。Ex∼p[f(x)]=∫f(x)p(x)dx=∫f(x)p(x)q(x)q(x)dx=Ex∼q[f(x)p(x)q(x)]\begin{alig...原创 2019-03-06 21:35:23 · 11148 阅读 · 6 评论