RL算法
文章平均质量分 84
Ricky050
https://hrxweb.github.io/
展开
-
Reference
在书写这些笔记的过程中,完全是集百家之长,所有的参考部分在如下部分列出若侵权,请及时联系我删除,再次感谢以下资源生产者的奉献!github easyRL李宏毅-强化学习RL by David Silver原创 2021-09-17 17:28:53 · 79 阅读 · 0 评论 -
Proximal_Policy_Optimization
文章目录Proximal Policy Optimization什么是off-policy(异策略)on-policy缺点Importance Sampling(重要性采样)问题on-policy -> off-policyTRPO(Trust Region Policy Optimization)——PPO前身PPO(近端策略优化)PPO AlgorithmPPO-PenaltyPPO-ClipProximal Policy Optimization什么是off-policy(异策略)学习的a原创 2021-09-18 10:09:13 · 97 阅读 · 0 评论 -
Sparse_reward
文章目录Sparse RewardApproach1--Reward ShapingApproach2--CuriosityApproach3--Curriculum LearningApproach4--Hierarchical RLSparse Reward如果环境中真正的 reward 非常 sparse,reinforcement learning 的问题就会变得非常的困难,但是人类可以在非常 sparse 的 reward 上面去学习。我们的人生通常多数的时候,我们就只是活在那里,都没有得到什原创 2021-09-18 10:09:26 · 112 阅读 · 0 评论 -
Policy_Gradient
文章目录准备函数梯度下降/上升技巧Add a baseline or normalizationAdvantage FunctionAssign suitable credit代码执行过程梯度更新方法AdamRMSpropSGDMomentumAdaGrad准备函数把状态s和动作a串起来就得到了轨迹????Trajectory τ={s1,a1,s2,a2,...,st,at}Trajectory \ \tau = \{s_1, a_1, s_2, a_2, ..., s_t, a_t\原创 2021-09-18 10:08:51 · 79 阅读 · 0 评论 -
Imitation_Learning
文章目录Imitation LearningApproach1--Behavior CloningDataset Aggretion(DAgger)Approach2--Inverse RL or Inverse Optimal ControlConnection with GANImitation Learning别名:learning from demonstration(示范学习) ,apprenticeship learning(学徒学习),learning by watching(观察学习)原创 2021-09-17 18:36:52 · 133 阅读 · 0 评论 -
DQN_Continuous_Action
文章目录Q-learning for Continuous ActionsSolution1--sample actionSolution2--gradient ascendSolution3--design a networkSolution4--Don't use Q-learningQ-learning for Continuous ActionsQ:Q-learning相比于policy gradient based方法为什么训练起来效果更好,更平稳?A:只要能够 estimate 出Q-fu原创 2021-09-17 18:33:05 · 164 阅读 · 0 评论 -
DQN_advanced
文章目录DDQNDQN的问题:解决方法:DDQNDueling DQNFrameworkPrioritized Experience ReplayBalance between MC and TDNoisy NetDistributional Q-functionRainbowDDQNDQN的问题:Q-预估:训练时,每个状态都有一个预估的Q值,对多种不同的状态进行采样,求出Q值的平均值。Q-实际:有了策略之后真实的去玩很多次游戏,用reward求出实际的Q值,取平均。会发现预估的Q值往往比实际原创 2021-09-17 18:31:09 · 215 阅读 · 0 评论 -
DeepQN
文章目录DQNState Value Function定义State Value Function EstimationMC(Monte-Carlo)-basedTD(Temporal-difference)-basedState-action Value Function(Q-function)定义表示方法Policy ImprovementTip1: Target NetworkTip2: ExplorationEpsilon GreedyBoltzmann ExplorationTip3: Exper原创 2021-09-17 18:28:43 · 117 阅读 · 0 评论 -
DDPG
文章目录DDPG(Deep Deterministic Policy Gradient)离散动作 v.s. 连续动作随机策略 v.s. 确定性策略DDPGTrick: target network + Replay MemoryExploration v.s. ExploitationTwin Delayed DDPG(TD3) “双”“延迟”深度确定性策略网络DDPG(Deep Deterministic Policy Gradient)离散动作 v.s. 连续动作动作空间的可数性,很好理解。例如,原创 2021-09-17 18:25:07 · 1827 阅读 · 0 评论 -
Actor-Critic
文章目录Actor-CriticReview: Policy Gradient & Q-learningAdvantage Actor-Critic(A2C)tips for A2CAsynchronous Advantage Actor-Critic(A3C)Pathwise Derivative Policy GradientAlgorithmActor-Critic演员-评论家算法(Actor-Critic Algorithm)是一种结合policy based和value based的强原创 2021-09-17 18:19:44 · 424 阅读 · 0 评论