论文
文章平均质量分 96
相关论文翻译和整理
Gaogaogaoshu
这个作者很懒,什么都没留下…
展开
-
◇【论文_20181226v1_20190619v3】Learning to Walk via Deep Reinforcement Learning 【关于 SAC P3】
Abstract-【将 deep RL 用于…(研究目标:获取复杂控制器)】深度强化学习 (deep RL) 有望自动获取复杂的控制器,这些控制器可以将传感器输入直接映射到低层级动作。【deep RL 在拟研究领域的 优势】在机器人运动领域,deep RL 可以用最少的工程以及不需要明确的机器人动力学模型来学习运动技能。【deep RL 当前待解决的难点】不幸的是,将 deep RL 应用于现实世界的机器人任务极其困难,主要是由于样本复杂性差和对超参数的敏感性。原创 2024-10-27 12:25:00 · 637 阅读 · 0 评论 -
◇【论文_20181212v1_20190129v2】Soft Actor-Critic Algorithms and Applications 四足机器人运动 + 灵巧手操作【关于 SAC P2】
https://arxiv.org/abs/1812.05905Soft Actor-Critic Algorithms and Applicationshttps://sites.google.com/view/sac-and-applications/标记与论文 《Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor》(20180808v2) 的原创 2024-10-27 12:23:29 · 446 阅读 · 0 评论 -
◇【论文_20180104v1_20180808v2】Soft Actor-Critic (SAC):off-policy 最大熵 actor-critic 算法 【关于 SAC P1】
有些地方不太理解,欢迎评论区交流~ 🌞https://arxiv.org/abs/1801.01290ICML 2018Berkeley Artificial Intelligence Research, University of California, Berkeley, USA. Correspondence to: Tuomas Haarnoja haarnoja@berkeley.edu.伯克利人工智能研究Soft Actor-Critic: Off-Policy Maximum原创 2024-10-27 12:22:36 · 310 阅读 · 0 评论 -
◇【论文_20150909v1_20190705v6】Deep DPG (DDPG) 〔Google Deepmind〕【高维连续动作空间 + off-policy】
【研究范围】我们将 Deep Q-Learning 成功的基础思想应用于连续动作领域。〔 DQN 用到 连续动作环境 〕【我们提出了一种… 的…(类别)算法,该算法可以…】我们提出了一种基于确定性策略梯度的 actor-critic,无模型算法,该算法可以在连续的动作空间上运行。【解决了哪些任务】使用相同的学习算法、网络架构和超参数,我们的算法鲁棒地解决了 20 多个模拟物理任务,包括经典问题,如车杆摆动、灵巧操作腿部运动和汽车驾驶。【优势】原创 2024-10-21 21:30:00 · 636 阅读 · 0 评论 -
【论文_20160204_20160616v2】A3C〔Google DeepMind〕——> A2C 〔OpenAI〕并行 actors 思想,one-step vs. n-step (学得更快)
https://arxiv.org/abs/1602.01783可参考代码实现JMLRAsynchronous Methods for Deep Reinforcement Learning文章目录摘要1. 引言2. 相关工作3. 强化学习 背景4. 异步 强化学习 框架异步 one-step Q-learning异步 one-step Sarsa异步 n-step Q-learning异步 advantage actor-critic (A3C)5. 实验5.1 Atari 2600 Game原创 2024-10-20 00:24:07 · 765 阅读 · 0 评论 -
◇【论文_20151120_20160405v3】Dueling Network 决斗〔Google DeepMind〕
【 本工作 所属 研究领域】近年来,在强化学习中使用深度表示已经取得了许多成功。尽管如此,这些应用中仍有许多使用传统架构,例如卷积网络、LSTMs 或自动编码器。【在本文中,我们提出了一种新的用于 … 的 … 架构 】在本文中,我们提出了一种新的用于无模型强化学习的神经网络架构。【 关键 idea 】我们的 dueling network 表示两个独立的估计器:一个用于状态价值函数,另一个用于依赖状态的动作优势函数。【 优势 】原创 2024-10-19 19:15:00 · 975 阅读 · 0 评论 -
◇【论文_20171006】Rainbow〔DeepMind〕:Combining Improvements in Deep Reinforcement Learning
↓【注意到前人干了啥,感觉还有啥有必要研究研究,本文具体做了哪些 (组合评估,消融评估,结论要点)】深度强化学习界对 DQN 算法进行了几项独立的改进。然而,还不清楚这些扩展中哪些是互补的,可以有效地结合起来。本文研究了 DQN 算法的六个扩展,并对它们的组合进行了实证研究。我们的实验表明,无论是在数据效率还是最终性能方面,这种组合在 Atari 2600 基准 上都提供了最先进的性能。我们还提供了详细的消融研究结果,显示了每个组件对整体性能的贡献。原创 2024-10-19 19:15:00 · 836 阅读 · 0 评论 -
◇【论文_20150225】 DQN_2015(nature) 〔Google DeepMind〕
【 指出本工作所属的研究领域 】强化学习理论 为 代理agents 可以如何优化它们对环境的控制提供了一种规范的解释,这深深根植于动物行为的心理学和神经科学观点。【 要实现 … 面临困难… 】然而,为了在接近现实世界复杂性的情况下成功地使用强化学习,agents 面临着一个困难的任务:它们必须从高维感官输入中获得环境的有效表示,并使用这些来将过去的经验推广到新的情境。【 该工作是受什么启发的】值得注意的是,人类和其他动物似乎通过强化学习和分层感觉处理系统。原创 2024-10-19 19:15:00 · 1654 阅读 · 0 评论 -
◇【论文_20170720_20170828v2】PPO 算法〔OpenAI〕: Proximal Policy Optimization Algorithms
【我们提出了…用于…的方法,可以干什么?我们提出了一系列用于强化学习的新策略梯度方法,这些方法通过 与环境交互来交替采样数据,并使用随机梯度上升来优化“代理”目标函数。【关键 idea】标准的策略梯度方法 对每个数据样本执行一次梯度更新,我们提出了一个新的目标函数,可以实现小批量的多个 epochs 更新。!注意这里 不是 回合episodes,是深度学习中常见的 epochs,完整的数据集送入到神经网络训练并且返回称为一次 epoch〕【方法的优势】原创 2024-10-09 01:30:00 · 814 阅读 · 0 评论 -
◇【论文_20150608_20181020v6】广义优势估计器 (generalized advantage estimator, GAE)
https://arxiv.org/abs/1506.02438ICLR 2016加州伯克利 电子工程与计算机科学系High-Dimensional Continuous Control Using Generalized Advantage Estimation文章目录摘要1 引言2 预备知识3 优势函数估计4 解释为 奖励设计reward shaping5 价值函数估计6 实验6.1 策略优化算法6.2 实验设置6.2.1 网络架构6.2.2 任务细节6.3 实验结果6.3.1 Cart-p原创 2024-10-09 01:00:00 · 971 阅读 · 0 评论 -
【论文_2000】REINFORCE 和 actor-critic 等策略梯度方法的局部收敛性证明
部分证明不太理解SUTTON R S, MCALLESTER D A, SINGH S P, et al. Policy gradient methods for reinforcement learning with function approximation [C] // Advances in neural information processing systems, 2000: 1057-1063. 【PDF 链接】文章目录摘要引言1 策略梯度定理2 策略梯度 近似3 推导算法 和原创 2024-09-26 21:45:00 · 723 阅读 · 0 评论 -
【论文_1992】 REINFORCE » P2 附录
Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn., 8:229–256, 1992. PDF 下载链接前面部分:【论文_1992】 REINFORCE » P1文章目录附录 AA.1. REINFORCE 算法的一些结论A.2. 回合式 REINFORCE 算法 的结论附录 B附录 A本附录分别包含原创 2024-09-26 21:45:00 · 1035 阅读 · 1 评论 -
【论文_1992】 REINFORCE » P1 ⭐ 为什么强化学习的目标函数里常看到 log
Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn., 8:229–256, 1992. PDF 下载链接——————————————————————————【REINFORCE_1992_Northeastern University】朴素策略梯度 vanilla policy gradient (also calle原创 2024-09-26 21:30:00 · 831 阅读 · 0 评论