自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(85)
  • 收藏
  • 关注

原创 【技术报告_20250310】通才策略 Genie Operator-1 (GO-1) && 开源的机器人操作数据集 AgiBot World 〔智元机器人〕

我们探索可扩展的机器人数据如何解决通用机器人操作的现实挑战。引入 AgiBot World,一个大型平台,包含 5 个部署场景,217 个任务中的超过 100 万条轨迹,与现有数据集相比,我们实现了数据规模的数量级增长。通过 human-in-the-loop 验证 的标准化的收集 pipeline 加速,AgiBot World 保证了高质量且多样化的数据分布。它可以从夹持器扩展到灵巧手和 用于精细技能学习的 visuo-tactile 传感器。

2025-04-29 23:45:00 917 5

原创 【论文_序列转换模型架构_20230802v7】Attention Is All You Need 【Transformer】

↓〔 一个新的简单的 sequence transduction序列转换 模型架构,Transformer: 性能更好,更具并行性,需要更少的训练时间。主流的序列 transduction 模型是基于复杂的循环或卷积神经网络,包括一个编码器和一个解码器。表现最好的模型还通过注意机制连接编码器和解码器。我们提出了一个新的简单的网络架构,Transformer,完全基于注意机制,完全摒弃循环和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优越,同时更具并行性,并且需要。

2025-04-29 23:45:00 1032

原创 【arxiv_20250226v1】Hi Robot:分层策略 ( VLM + VLA ) + 合成数据 〔 适用:更复杂的提示,整合反馈 〕

能够在开放世界环境中执行一系列不同任务的 Generalist robots 不仅必须能够推理 完成目标所需的 步骤,还必须能够在任务执行过程中处理复杂的指令、提示甚至反馈。复杂的指令 (例如,“你能给我做一个素食三明治吗?” 或 “我不喜欢那个”) 不仅需要能够实际执行单独的步骤,还需要能够将复杂的命令和反馈置于物理世界中。在这项工作中,我们描述了一个系统,该系统在分层结构中使用视觉-语言模型,首先对复杂的提示和用户反馈进行推理,以推断出完成任务的最合适的下一步,然后用低层级动作执行该步骤。

2025-04-29 13:15:05 808

原创 【论文_20250301v2】RDT-1B (68.2%): 用于双手操作的扩散基础模型 Robotics Diffusion Transformer (RDT)

https://arxiv.org/abs/2410.07864项目页面:https://rdt-robotics.github.io/rdt-robotics/20241010v1双手操作策略的开发挑战:高维的动作空间数据稀缺;复杂的多模态行为更具成本效益的数据收集接口仅限于特定的硬件配置不足以弥合 实现可泛化策略 的数据差距引入归纳偏差来减少数据需求:区分两个手臂的稳定性和功能;参数化移动基元;使用体素表示 ✅ 减小了动作空间使用强先验或简化的建模:减少了应用范围,无法表达双手行为的多模态↓

2025-04-25 22:00:00 369

原创 # [0114] Task01 《数学建模导论》P1 解析几何与方程模型

几何语言:∵。

2025-01-20 00:59:46 1108

原创 ◇【论文_20241023】PoliFormer && PoliFormer-BoxNav 【object goal navigation】【on-policy RL + transformers】

我们介绍了 PoliFormer (Policy Transformer),一种仅 RGB 的室内导航代理agent,通过大规模的端到端强化学习进行训练,尽管纯粹是在模拟器中训练,但它可以推广到现实世界,而无需适应。PoliFormer 使用一个基本的视觉transformer 编码器和 一个因果transformer 解码器,实现长期记忆和推理。它在不同的环境中进行了数亿次的交互训练,利用并行的多机器试运行来进行高吞吐量的高效训练。

2024-11-08 22:15:00 961

原创 ◇【论文_20160610】Generative Adversarial Imitation Learning 【附录 A】

文章目录A 证明Section 3 的证明引理 3.1 证明命题 3.2 的证明A.2 Section 5 的证明命题 A.1推论 A.1.1引理 A.1 因果熵的策略梯度公式A 证明Section 3 的证明引理 3.1 证明Proof of Lemma 3.1.首先,我们证明 Hˉ\bar HHˉ 是严格凹的。令 ρ\rhoρ 和 ρ′\rho^\primeρ′ 为占用度量,假设 λ∈[0,1]\lambda \in [0,1]λ∈[0,1]。对于 所有 sss 和 aaa,由对数和不

2024-11-08 00:54:32 736

原创 ◇【论文_20160610】Generative Adversarial Imitation Learning 【主体】

https://arxiv.org/abs/1606.03476代码Generative Adversarial Imitation Learning文章目录摘要1 引言2 背景预备知识逆强化学习3 诱导最优策略的表征命题 3.1命题 3.2推论 3.2.1引理 3.1引理 3.2推论 3.2.1 的证明4 实际占用度量匹配熵正则化的学徒学习 (apprenticeship learning)学徒学习的缺点学徒学习的优点5 生成对抗模仿学习算法6 实验7 讨论和展望致谢参考文献A 证明B 环境和更详

2024-11-08 00:54:07 774

原创 ◇【论文_20170705v1_20180223v3】HER:Hindsight Experience Replay 【稀疏的二进制奖励、多目标】〔OpenAI〕

【… 是…(大类) 中最大的挑战之一】处理稀疏奖励是强化学习(RL)中最大的挑战之一。【我们提出了一种称为…的新技术,作用/优点】我们提出了一种称为后见之明经验回放的新技术,它使得从稀疏和二进制的奖励中进行样本高效学习,从而无需复杂的奖励工程。〔 稀疏的二进制奖励 设置中 样本高效学习 〕【优点 2】它可以与任意的异策略off-policy RL 算法相结合,并且可以被视为一种隐性课程。【在哪些任务上做演示】我们演示了将我们的方法用在 机械臂操作物体的任务中。

2024-11-08 00:41:10 757

原创 ◇【论文_20180226v1_20181022v3】Addressing Function Approximation Error in Actor-Critic Methods 【 TD3 】

https://arxiv.org/abs/1802.09477Addressing Function Approximation Error in Actor-Critic Methods加拿大 麦吉尔大学 ICML 2018文章目录摘要1. 引言2. 相关工作3. 背景4. 高估偏差4.1. Actor-Critic 中的高估偏差4.2. Clipped Double Q-Learning for Actor-Critic5. 处理方差5.1. 累积误差5.2. 目标网络 和 延迟策略更新

2024-10-29 10:02:23 837

原创 【Code】Soft Actor-Critic (SAC)

可参考代码库SAC_OpenAI 文档OpenAI 文档_SAC 页面链接Soft Actor Critic (SAC) 以 异策略off-policy 方式 优化 随机策略。DDPG + 随机策略优化不是 TD3 的直接继承者 (几乎同时发表)。它包含了 clipped double-Q 技巧,并且由于 SAC 的策略的固有随机性,它也最终受益于 目标策略平滑 。SAC 的一个核心特征是 entropy regularization 熵正则化。策略被训练为 最大化 回报的期望 和 熵 之间

2024-10-27 12:34:48 916

原创 ◇【论文_20181226v1_20190619v3】Learning to Walk via Deep Reinforcement Learning 【关于 SAC P3】

Abstract-【将 deep RL 用于…(研究目标:获取复杂控制器)】深度强化学习 (deep RL) 有望自动获取复杂的控制器,这些控制器可以将传感器输入直接映射到低层级动作。【deep RL 在拟研究领域的 优势】在机器人运动领域,deep RL 可以用最少的工程以及不需要明确的机器人动力学模型来学习运动技能。【deep RL 当前待解决的难点】不幸的是,将 deep RL 应用于现实世界的机器人任务极其困难,主要是由于样本复杂性差和对超参数的敏感性。

2024-10-27 12:25:00 1091

原创 ◇【论文_20181212v1_20190129v2】Soft Actor-Critic Algorithms and Applications 四足机器人运动 + 灵巧手操作【关于 SAC P2】

https://arxiv.org/abs/1812.05905Soft Actor-Critic Algorithms and Applicationshttps://sites.google.com/view/sac-and-applications/标记与论文 《Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor》(20180808v2) 的

2024-10-27 12:23:29 925

原创 ◇【论文_20180104v1_20180808v2】Soft Actor-Critic (SAC):off-policy 最大熵 actor-critic 算法 【关于 SAC P1】

有些地方不太理解,欢迎评论区交流~ 🌞https://arxiv.org/abs/1801.01290ICML 2018Berkeley Artificial Intelligence Research, University of California, Berkeley, USA. Correspondence to: Tuomas Haarnoja haarnoja@berkeley.edu.伯克利人工智能研究Soft Actor-Critic: Off-Policy Maximum

2024-10-27 12:22:36 713

原创 ◇【Code】Deep Deterministic Policy Gradient ( DDPG ) && Twin Delayed DDPG ( TD3 )

当存在有限数量的离散动作时,max 不会造成问题,因为我们可以单独计算每个动作的 Q 值并直接比较它们。因为策略是确定的,如果agent 要以 同策略on-policy 的方式进行探索,一开始它可能不会尝试足够多的动作来找到有用的学习信号。函数近似器的 Q-learning 算法,如 DQN(及其所有变体) 和 DDPG,主要基于最小化 MSBE 损失函数。因为动作空间是连续的,并且我们假设 Q 函数对动作是可微的,我们可以只执行梯度上升(仅针对策略参数)来求解。,可以在训练过程中减小噪声的规模。

2024-10-21 21:30:00 822

原创 ◇【论文_20150909v1_20190705v6】Deep DPG (DDPG) 〔Google Deepmind〕【高维连续动作空间 + off-policy】

【研究范围】我们将 Deep Q-Learning 成功的基础思想应用于连续动作领域。〔 DQN 用到 连续动作环境 〕【我们提出了一种… 的…(类别)算法,该算法可以…】我们提出了一种基于确定性策略梯度的 actor-critic,无模型算法,该算法可以在连续的动作空间上运行。【解决了哪些任务】使用相同的学习算法、网络架构和超参数,我们的算法鲁棒地解决了 20 多个模拟物理任务,包括经典问题,如车杆摆动、灵巧操作腿部运动和汽车驾驶。【优势】

2024-10-21 21:30:00 795

原创 【论文_20160204_20160616v2】A3C〔Google DeepMind〕——> A2C 〔OpenAI〕并行 actors 思想,one-step vs. n-step (学得更快)

https://arxiv.org/abs/1602.01783可参考代码实现JMLRAsynchronous Methods for Deep Reinforcement Learning文章目录摘要1. 引言2. 相关工作3. 强化学习 背景4. 异步 强化学习 框架异步 one-step Q-learning异步 one-step Sarsa异步 n-step Q-learning异步 advantage actor-critic (A3C)5. 实验5.1 Atari 2600 Game

2024-10-20 00:24:07 863

原创 ◇【论文_20171006】Rainbow〔DeepMind〕:Combining Improvements in Deep Reinforcement Learning

↓【注意到前人干了啥,感觉还有啥有必要研究研究,本文具体做了哪些 (组合评估,消融评估,结论要点)】深度强化学习界对 DQN 算法进行了几项独立的改进。然而,还不清楚这些扩展中哪些是互补的,可以有效地结合起来。本文研究了 DQN 算法的六个扩展,并对它们的组合进行了实证研究。我们的实验表明,无论是在数据效率还是最终性能方面,这种组合在 Atari 2600 基准 上都提供了最先进的性能。我们还提供了详细的消融研究结果,显示了每个组件对整体性能的贡献。

2024-10-19 19:15:00 1104

原创 ◇【论文_20150225】 DQN_2015(nature) 〔Google DeepMind〕

【 指出本工作所属的研究领域 】强化学习理论 为 代理agents 可以如何优化它们对环境的控制提供了一种规范的解释,这深深根植于动物行为的心理学和神经科学观点。【 要实现 … 面临困难… 】然而,为了在接近现实世界复杂性的情况下成功地使用强化学习,agents 面临着一个困难的任务:它们必须从高维感官输入中获得环境的有效表示,并使用这些来将过去的经验推广到新的情境。【 该工作是受什么启发的】值得注意的是,人类和其他动物似乎通过强化学习和分层感觉处理系统。

2024-10-19 19:15:00 1747

原创 ◇【论文_20151120_20160405v3】Dueling Network 决斗〔Google DeepMind〕

【 本工作 所属 研究领域】近年来,在强化学习中使用深度表示已经取得了许多成功。尽管如此,这些应用中仍有许多使用传统架构,例如卷积网络、LSTMs 或自动编码器。【在本文中,我们提出了一种新的用于 … 的 … 架构 】在本文中,我们提出了一种新的用于无模型强化学习的神经网络架构。【 关键 idea 】我们的 dueling network 表示两个独立的估计器:一个用于状态价值函数,另一个用于依赖状态的动作优势函数。【 优势 】

2024-10-19 19:15:00 1097

原创 ◇【code】PPO: Proximal Policy Optimization

整理的代码库:https://github.com/Gaoshu-root/Code-related-courses/tree/main/RL2024/PPOOpenAI 文档 —— PPO-ClipOpenAI 文档 界面链接PPO: on-policy 算法、适用于 离散 或 连续动作空间。可能局部最优PPO 的动机与 TRPO 一样:如何利用现有的数据在策略上采取最大可能的改进 step,而不会改动过大而意外导致性能崩溃?TRPO 试图用一种复杂的二阶方法来解决这个问题,PPO 则是一种一

2024-10-09 03:30:00 834

原创 ◇【论文_20170720_20170828v2】PPO 算法〔OpenAI〕: Proximal Policy Optimization Algorithms

【我们提出了…用于…的方法,可以干什么?我们提出了一系列用于强化学习的新策略梯度方法,这些方法通过 与环境交互来交替采样数据,并使用随机梯度上升来优化“代理”目标函数。【关键 idea】标准的策略梯度方法 对每个数据样本执行一次梯度更新,我们提出了一个新的目标函数,可以实现小批量的多个 epochs 更新。!注意这里 不是 回合episodes,是深度学习中常见的 epochs,完整的数据集送入到神经网络训练并且返回称为一次 epoch〕【方法的优势】

2024-10-09 01:30:00 1022

原创 ◇【论文_20150608_20181020v6】广义优势估计器 (generalized advantage estimator, GAE)

https://arxiv.org/abs/1506.02438ICLR 2016加州伯克利 电子工程与计算机科学系High-Dimensional Continuous Control Using Generalized Advantage Estimation文章目录摘要1 引言2 预备知识3 优势函数估计4 解释为 奖励设计reward shaping5 价值函数估计6 实验6.1 策略优化算法6.2 实验设置6.2.1 网络架构6.2.2 任务细节6.3 实验结果6.3.1 Cart-p

2024-10-09 01:00:00 1217

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch10 Actor-Critic 方法 » P1

PDF 资料 整理 v3 链接 视频 链接 习题actor-critic 方法仍然是策略梯度方法。强调结合策略梯度 和 基于价值的方法的结构。actor:策略更新。 策略用于执行动作critic: 策略评估 或 价值估计。10.1 QACQ: 动作价值 qtq_tqt​上节课介绍的 策略梯度方法1) 标量指标 J(θ)J(\theta)J(θ): vˉπ\bar v_\pivˉπ​ 或 rˉπ\bar r_\pirˉπ​2) 最大化 J(θ)J(\theta)J(θ

2024-09-27 21:30:00 1020

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch10 Actor-Critic 方法 » P2

最简单的 actor-critic 算法 QAC。该算法类似于上一章介绍的策略梯度算法——REINFORCE。唯一的区别是 QAC 中的 Q 值估计依赖于 TD 学习,而 REINFORCE 依赖于蒙特卡罗估计。advantage actor-critic: 策略梯度对任何附加基线都是不变的。最优基线可以帮助减少估计方差。off-policy异策略: importance sampling重要性采样。

2024-09-27 21:30:00 937

原创 【论文_1992】 REINFORCE » P2 附录

Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn., 8:229–256, 1992. PDF 下载链接前面部分:【论文_1992】 REINFORCE » P1文章目录附录 AA.1. REINFORCE 算法的一些结论A.2. 回合式 REINFORCE 算法 的结论附录 B附录 A本附录分别包含

2024-09-26 21:45:00 1222 1

原创 【论文_2000】REINFORCE 和 actor-critic 等策略梯度方法的局部收敛性证明

部分证明不太理解SUTTON R S, MCALLESTER D A, SINGH S P, et al. Policy gradient methods for reinforcement learning with function approximation [C] // Advances in neural information processing systems, 2000: 1057-1063. 【PDF 链接】文章目录摘要引言1 策略梯度定理2 策略梯度 近似3 推导算法 和

2024-09-26 21:45:00 896

原创 【论文_1992】 REINFORCE » P1 ⭐ 为什么强化学习的目标函数里常看到 log

Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn., 8:229–256, 1992. PDF 下载链接——————————————————————————【REINFORCE_1992_Northeastern University】朴素策略梯度 vanilla policy gradient (also calle

2024-09-26 21:30:00 1030

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 Box 8.1 马尔可夫决策过程的平稳分布

设。

2024-09-26 21:30:00 1504

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 9.4- Monte Carlo policy gradient (REINFORCE)

梯度在不同情况下的表达式是相似的。

2024-09-26 21:30:00 1091

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 9.3.2 无折扣情形下的梯度推导

v3 链接9.3.2 无折扣情形下的梯度推导平均奖励 rˉπ\bar r_\pirˉπ​ 的定义对折扣和无折扣情况都有效。在折扣情况下的梯度是一个近似值,它在无折扣情况下的梯度更优雅。因为 无折扣奖励和 E[Rt+1+Rt+2+Rt+3+⋯∣St=s]{\mathbb E}[R_{t+1}+R_{t+2}+R_{t+3}+\cdots|S_t=s]E[Rt+1​+Rt+2​+Rt+3​+⋯∣St​=s] 可能发散,因此以特别的方式定义 状态价值 和 动作价值: ~ vπ(s)≐

2024-09-26 21:30:00 1407

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 -9.3.1

之前看了 2 次视频,公式有点多, 还是没整理出来。这个版本是以下步骤后的版本 基本把相关的核心论文过了一遍,代码整理了部分 PDF 资料 整理 v3 链接 视频 链接 习题 策略梯度方法需要估计值函数近似: 状态/动作 价值、策略参数化的策略: π(a∣s,θ)\pi(a|s,\theta)π(a∣s,θ),其中 θ∈Rm\theta\in{\mathbb R}^mθ∈Rm 是一个参数向量其它形式: πθ(s,a)\pi_\theta(s,a)πθ​(s,a), π(a,s

2024-09-26 21:15:00 600

原创 # [0705] Task06 DDPG 算法、PPO 算法、SAC 算法【理论 only】

easy-rl PDF版本 笔记整理 P5、P10 - P12 joyrl 比对 补充 P11 - P13 OpenAI 文档整理 ⭐ https://spinningup.openai.com/en/latest/index.html最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases国内地址(推荐国内读者使用):链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh

2024-07-07 22:12:33 1401 3

原创 # [0701] Task05 策略梯度、Actor-critic 算法

最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a参考链接 2:https://datawhalechina.github.io/joyrl-book/——————5、深度强化学习基础 ⭐️开源内容:https://linklearner.com/learn/summary/11。

2024-07-01 21:58:34 1224 3

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch8 值函数拟合 【基于近似函数的 TD 算法:Sarsa、Q-leaning、DQN】

PPT 截取有用信息。课程网站做习题。

2024-06-30 13:57:17 908

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch7 时序差分方法 [model-free+增量] 【TD-learning:Sarsa、Q-learning】【贝尔曼期望公式】

PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍 1、学堂在线 视频 + 习题 2、相应章节 过电子书 复习 【下载:本章 PDF 文档GitHub】 3、MOOC 习题 不理解的地方学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub链接】文章目录7.1 状态值 的 TD 学习算法7.2 动作值 的 TD 算法: Sarsa7.2.2 通过 Sarsa 学习最优策略Expected Sa

2024-06-30 13:52:41 519

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch6 随机近似 和 随机梯度下降 【non-incremental —> incremental 增量】

学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub链接】Stochastic Approximation:随机近似Stochastic Gradient Descent:随机梯度下降第 7 章 的 Temporal-Difference Learning 是 Stochastic Approximation 的一个特殊情况。随机梯度下降 是 RM 算法的特例4、Batch Gradient Descent、Mini-batch Gradient

2024-06-30 13:41:45 649

原创 # [0628] Task04 DQN 算法及进阶

easy-rl PDF版本 笔记整理 P6 - P8 joyrl 比对 补充 P7 - P8 相关 代码 整理 待整理 !!最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases国内地址(推荐国内读者使用):链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6aeasy-rl 在线版本链接 (用于 copy 代码) 参考链接 2:h

2024-06-28 21:47:54 931 1

原创 # [0624] Task03 深度学习基础

参考链接 :https://datawhalechina.github.io/joyrl-book/开源内容:https://linklearner.com/learn/summary/11。LSTM (输入门、遗忘门、输出门)、GRU(更新门、重置门)局部感受野、权重共享、池化层、归一化和 Dropout。连续动作, 汽车方向盘转动角度, tanh 激活函数。Adam: 当前梯度 和 之前梯度的平方。动量法: 考虑当前的梯度 和 之前的梯度。线性回归 均方差损失。逻辑回归 交叉熵损失。

2024-06-24 21:17:31 956

原创 ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch5 蒙特卡洛方法【model-based ——> model-free】

PPT 截取必要信息。课程网站做习题。

2024-06-23 15:28:51 1039

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除