强化学习
李明朔
这个作者很懒,什么都没留下…
展开
-
强化学习组队学习task06——DDPG 算法
文章目录一、离散动作和连续动作二、DDPG(Deep Deterministic Policy Gradient)Actor-Critic结构一、离散动作和连续动作离散动作与连续动作是相对的概念,一个是可数的,一个是不可数的。离散动作比如推小车的方向有前后左右四个方向连续动作比如说推小车力的大小、 选择下一时刻方向盘的转动角度或者四轴飞行器的四个螺旋桨给的电压的大小等等。对于这些连续的动作控制空间,Q-learning、DQN 等算法是没有办法处理的。这个时候,万能的神经网络又出现了。原创 2020-11-06 19:51:39 · 1453 阅读 · 1 评论 -
强化学习组队学习task05—— 稀疏奖励及模仿学习
文章目录一、Sparse Reward1.Reward ShapingICM(intrinsic curiosity module)2.Curriculum LearningReverse Curriculum Generation3.Hierarchical RL二、Imitation Learning一、Sparse Reward实际上在训练强化学习的时候,多数时候agent是很难获得奖励的。举例来说,假设要训练一个机器手臂用螺丝起子把螺丝钉栓进去,这种情况很难因为一开始的 agent 是什么都不知原创 2020-11-05 20:11:57 · 581 阅读 · 0 评论 -
强化学习组队学习task04—— DQN 算法及 Actor-Critic 算法
文章目录一、DQN1.状态价值函数的估计方法2.Q函数3.DQN网络中的tips(1)目标网络(2)Exploration(3)Experience Replay(经验回放)4.DQN算法总结二、Q-learning进阶三、连续行为的Q-learning四、Actor-critic一、DQN在 Q-learning 中,我们使用表格来存储每个状态 s 下采取动作 a 获得的奖励,即状态-动作值函数 。然而,这种方法在状态量巨大甚至是连续的任务中,会遇到维度灾难问题,往往是不可行的。因此,DQN 是指基于原创 2020-11-03 21:13:22 · 1586 阅读 · 1 评论 -
强化学习组队学习task03—— 策略梯度及 PPO 算法
文章目录一、策略梯度1.策略梯度理论实现R的梯度算法:对于该公式的理解:在计算完R的梯度后,我们就使用策略梯度对参数进行更新2.策略梯度实现的小技巧(1)添加一个基准值(2)分配合适的权重3.蒙特卡洛与时序差分二、PPO算法1.on-policy和off-policy2.importance sampling3.on-policy转变为off-policy4.PPO/TRPO(1)PPO1(2)PPO2一、策略梯度1.策略梯度理论实现在深度学习中,我们所获得的期望奖励可由下图描述:在图中有强化学习原创 2020-10-29 20:43:38 · 1170 阅读 · 0 评论 -
强化学习组队学习task02——马尔可夫决策过程及表格型方法
文章目录一、马尔科夫决策过程1.马尔科夫链2.马尔科夫奖励过程3.马尔科夫决策过程4.马尔科夫决策过程的决策评价5.马尔科夫决策过程的控制二、表格型方法三级目录一、马尔科夫决策过程马尔科夫过程描述了强化学习的框架。在马尔科夫过程中,环境是完全可以观测的,但是很多时候环境里面有些量是不可观测的,但是这个部分观测的问题也可以转换成一个 MDP 的问题。在介绍马尔可夫决策过程之前,先梳理一下马尔可夫链、马尔可夫奖励过程。这两个过程是马尔可夫决策过程的一个基础。1.马尔科夫链当一个状态满足马尔科夫特征时,原创 2020-10-23 19:26:51 · 923 阅读 · 0 评论 -
强化学习组队学习task01——基础
强化学习一、强化学习基础二、序列决策过程(Sequential Decision Making)1.奖励(rewards)2.序列决策过程3.动作空间(Action Spaces)4.Agent的主要组成部分(1)决策(policy)(2)价值函数(value function)(3)模型5.Agents的种类(1)基于Agents学习的东西(2)基于是否有模型一、强化学习基础强化学习讨论的问题是一个 智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。原创 2020-10-19 20:06:26 · 983 阅读 · 0 评论