- 博客(341)
- 资源 (2)
- 收藏
- 关注
原创 论文笔记(一百二十二)PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation(一)
人类仅凭一眼观察以及对自身动作的预想,便能够预测三维世界将如何作出响应,而这种能力对于机器人操作同样至关重要。我们提出了 POINTWORLD,一个大规模预训练的三维世界模型,该模型将状态与动作统一表示在同一三维空间中,并以三维点流(3D point flows)的形式建模:在给定一张或多张 RGB-D 图像以及一段低层级机器人动作指令序列的情况下,POINTWORLD 能够预测每个像素在三维空间中的位移变化,以响应所给定的动作。通过将动作表示为三维点流,而非依赖于具体机器人本体的动作空间(例如关节位置),
2026-01-15 22:37:06
1004
1
原创 论文笔记(一百二十一)DiffPF: Differentiable Particle Filtering with ... Conditional Diffusion Models
本文提出DiffPF,一种基于条件扩散模型的可微粒子滤波方法,用于动态系统状态估计。DiffPF通过将扩散模型条件化于预测粒子和当前观测,学习灵活的后验采样器,直接从复杂的高维多模态滤波分布中生成等权重粒子样本。该方法避免了传统粒子滤波中重要性采样和人工设计提议分布的限制,有效解决了粒子退化问题。实验表明,DiffPF在单模态和多模态场景下均显著优于现有方法,在全局定位基准上精度提升90.3%,在真实机器人任务中性能提升近50%。这是首个将条件扩散模型引入粒子滤波框架的工作,实现了高质量后验采样和更优的状态
2026-01-14 20:52:08
1047
原创 论文笔记(一百二)WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving
近年来,驾驶场景生成与重建方向的研究进展表明,通过生成可扩展且可控的训练数据,该类方法在提升自动驾驶系统性能方面具有显著潜力。现有的生成方法主要关注于合成多样化且高保真的驾驶视频;然而,由于三维一致性不足以及视角覆盖稀疏,这些方法难以支持便捷且高质量的新视角合成(Novel-View Synthesis, NVS)。相反,近年来的 3D/4D 重建方法在真实驾驶场景的新视角合成方面取得了显著进展,但其本质上缺乏生成能力。为了解决场景生成与场景重建之间的这一两难问题,我们提出了 WorldSplat,一种用于
2026-01-11 20:48:08
695
原创 论文笔记(一百一十九)Two-Steps Diffusion Policy for Robotic Manipulation via Genetic Denoising
扩散模型(如 diffusion policy)通过模仿专家示范,在机器人操作任务中取得了当前最先进的性能表现。 尽管扩散模型最初是为图像与视频生成等视觉任务而开发的,但其许多推理策略在未作任何适配的情况下,被直接迁移到了控制领域。 在本文中,我们表明,通过针对具身智能任务的特定特性对去噪过程进行定制——尤其是动作分布具有结构化、低维度的特点——扩散策略在仅需 5 次神经函数评估(NFE)的情况下,仍然可以高效运行。 基于这一观察,我们提出了一种基于群体的采样策略——遗传去噪(genetic denois
2026-01-10 17:02:37
948
原创 论文笔记(一百一十八)One2Any: One-Reference 6D Pose Estimation for Any Object
本文提出了一种名为One2Any的新型6D物体位姿估计方法,仅需单张参考RGB-D图像即可实现任意物体的位姿估计,无需3D模型或多视角数据。该方法通过编码-解码框架,将参考图像编码为综合位姿嵌入(ROPE),再解码生成参考物体坐标(ROC)进行位姿估计。实验表明,One2Any在多个基准数据集上实现了与依赖CAD模型或多视角方法相当的性能,同时计算效率更高。该方法突破了传统位姿估计对完整3D模型的依赖,为真实场景中新物体的位姿估计提供了实用解决方案。
2026-01-10 17:02:06
802
原创 论文笔记(一百一十七)WorldVLA Towards Autoregressive Action World Model Model
WorldVLA:一种自回归动作世界模型 本文提出WorldVLA模型,通过整合视觉-语言-动作(VLA)模型与世界模型,实现了动作与图像理解的统一框架。该模型采用三个独立分词器处理多模态输入,共享统一词表以支持跨模态生成。世界模型通过学习环境物理规律预测未来图像,提升动作生成能力;动作模型则基于图像观测生成动作序列,促进视觉理解。研究发现自回归动作生成存在误差累积问题,为此提出注意力掩码策略,在生成当前动作时有选择地遮蔽先前动作,有效缓解性能下降。实验表明,WorldVLA在LIBERO基准测试中抓取成功
2025-12-31 20:15:58
1132
原创 论文笔记(一百一十六)ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation
本文提出ViTa-Zero,一种零样本的视触觉物体6D位姿估计框架,通过融合视觉与触觉信息提升机器人操控任务中的位姿估计精度。该框架以视觉模型为骨干,利用触觉与本体感知数据构建物理约束进行测试时优化,克服纯视觉方法在遮挡和动态场景下的局限性。实验表明,ViTa-Zero显著优于基础视觉模型,在ADD-S AUC指标上平均提升55%,位置误差降低80%,适用于多种操作场景如抓取和物体交接。该方法的创新性在于无需触觉数据训练,具有更强的泛化能力和实用性。
2025-12-29 15:48:23
936
原创 论文笔记(一百一十五)Physically Embodied Gaussian Splatting: ... 3D Representation for Robotics (二)
本文提出了一种新型的“高斯-粒子”双重表示方法,用于机器人对物理世界的建模与交互。该方法结合了基于粒子的物理仿真与三维高斯泼溅渲染技术,通过视觉观测实时修正预测状态,实现了几何、物理与视觉的统一表征。实验验证表明,该系统在二维/三维目标跟踪和光度重建任务中表现良好,并展示了物理先验对提升状态预测准确性的关键作用。相关代码和视频已开源,为机器人感知与决策提供了新的解决方案。
2025-12-27 18:32:44
734
原创 论文笔记(一百一十五)Physically Embodied Gaussian Splatting: ... 3D Representation for Robotics (一)
摘要: 本文提出了一种新颖的双重 Gaussian-Particle 表示方法,用于机器人对物理世界的建模。该方法结合了基于粒子的物理仿真(PBD)和三维高斯泼溅(3DGS),实现了对几何结构、物理规律和视觉外观的统一建模。通过粒子刻画物体的物理属性,并通过附着的高斯模型渲染视觉状态,系统能够预测未来场景的物理演化(仿真)和视觉表现(渲染)。利用真实观测与渲染图像的差异,生成**“视觉力”**信号,动态修正粒子状态,确保表示与真实世界同步。实验验证了该方法在目标跟踪和光度重建任务中的有效性。 关键词: 物理
2025-12-26 19:21:24
1025
原创 论文笔记(一百一十四)Learning Point Cloud Representations with ... Category-Level 6D Object Pose Estimation
引用:主页:原文:代码、数据和视频:系列文章:请在 《《《文章》》》 专栏中查找类别级物体位姿估计旨在预测给定类别中物体的 6D 位姿与 3D 尺寸。 现有方法在该任务中仅将 6D 位姿作为监督信号,却未显式刻画位姿本身的内在连续性,从而导致预测不一致,并降低了对未见过位姿的泛化能力。 为解决这一局限,我们提出 HRC-Pose——一种新的仅深度(depth-only)的类别级物体位姿估计框架,它利用对比学习来学习能够保持 6D 位姿连续性的点云表示。 HRC-Pose 将物体位姿解耦为旋转与平
2025-12-25 15:05:20
613
原创 论文笔记(一百一十三)3D Gaussian Splatting for Real-Time Radiance Field Rendering
本文提出了一种基于3D高斯表示的新型辐射场渲染方法,能够在保持高质量的同时实现实时渲染。该方法通过以下创新点实现突破:(1)使用3D高斯作为场景表示,避免在空旷区域进行冗余计算;(2)采用交错式优化与密度控制策略,优化各向异性协方差以提高表示精度;(3)开发了快速可见性感知渲染算法,支持各向异性泼溅,显著加速训练和渲染过程。实验表明,该方法在多个数据集上达到了与当前最佳方法相当的视觉质量,同时首次实现了1080p分辨率下≥30fps的实时渲染性能。相比传统NeRF类方法48小时的训练时间,本方法仅需51分钟
2025-12-24 15:38:32
1035
原创 论文笔记(一百一十二)Pos3R: 6D Pose Estimation for Unseen Objects Made Easy
Pos3R: 基于3D基础模型的零样本6D位姿估计方法 本文提出Pos3R,一种无需训练的6D物体位姿估计方法,通过利用3D重建基础模型(如MASt3R)解决传统2D方法在平面外旋转下的性能瓶颈。该方法采用两阶段流程:1)使用3D模型生成多视角模板并提取三维一致性特征;2)通过特征匹配和PnP计算最终位姿。实验表明,Pos3R在BOP基准测试中达到与现有方法相当的性能,尤其在处理未见物体时展现优势。此外,该方法可无缝集成"渲染-对比"精化技术,适用于高精度应用场景。核心创新在于利用3D模
2025-12-21 13:43:57
909
原创 论文笔记(一百一十一)ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation
本文提出ActivePose框架,一种结合视觉语言模型(VLM)与机器人想象的主动6D物体位姿估计与跟踪方法。针对传统方法在视角歧义、遮挡和物体运动情况下的局限性,该系统通过几何感知提示和可微渲染技术动态检测并消解位姿歧义。离线阶段利用CAD模型渲染多视角,计算各视角的位姿熵并构建包含歧义示例的提示词;在线运行时通过VLM评估当前视角歧义程度,必要时渲染虚拟候选视角并选择最优观测位姿(NBV)进行重新估计。对于运动物体,采用基于模仿学习的等变扩散策略生成相机跟踪轨迹以维持物体可见性。实验表明,该方法在仿真和
2025-12-18 13:29:12
624
原创 论文笔记(一百一)Robot Learning from a Physical World Model
本文提出PhysWorld框架,通过物理世界建模实现机器人从视频生成中学习。该框架结合视频生成与物理重建:给定单幅图像和任务指令,首先生成任务条件化视频,随后重建其背后的物理世界模型。通过以物体为中心的残差强化学习,将生成视频中的运动转化为符合物理规律的精确动作。这种方法无需真实机器人数据采集,实现零样本可泛化的机器人操控。实验表明,PhysWorld在多种真实任务中显著提升操控精度,优于现有方法。
2025-12-13 21:26:35
990
原创 论文笔记(一百零九)Discovering state-of-the-art reinforcement learning algorithms
摘要 本文提出了一种通过元学习自动发现强化学习(RL)算法的方法,无需依赖人工设计。研究者让智能体群体在多样化环境中交互,通过元网络自主生成学习规则(目标函数和更新机制)。实验表明,该方法发现的DiscoRL算法在Atari等基准测试中超越了人工设计的PPO、IMPALA等先进算法,并在未见过的复杂任务中展现出强大泛化能力。这一成果表明,未来高性能RL算法可能通过智能体自主探索而非人工设计获得。 关键词:强化学习、元学习、算法发现、自主智能体
2025-12-12 21:43:51
1001
原创 论文笔记(一百零八)Physics-Driven Data Generation for Contact-Rich Manipulation via Trajectory Optimization
本文提出了一种低成本的数据生成方法,通过结合物理仿真、人类示范和轨迹优化,为接触丰富的机器人操作任务生成大规模高质量数据集。该方法从少量VR环境中采集的人类示范出发,利用运动学重定向和轨迹优化技术适配不同机器人形态和物理参数,生成多样化且物理一致的数据。实验表明,基于该数据集训练的扩散策略可成功应用于多种机器人平台(如浮动Allegro手和双臂机械臂),并在实体机器人上实现零样本部署,仅需极少人工干预即达到高任务成功率。该方法显著提升了跨形态数据迁移能力,并为复用历史数据集提供了可能。
2025-12-11 16:25:11
745
原创 零碎的知识点(二十一):序列二次规划(Sequential Quadratic Programming, SQP)
真正的 SQP 还会加“信任域/步长控制”确保你不要一步走太远,我们待会简单提一下。这就是 SQP 第 1 轮迭代算出来的“新姿态”(对应机器人那边的一帧。——原本弯的“不能穿透曲线”,在这一轮里变成一条直线约束。得到一个“二次目标 + 线性约束”的小问题 → 很好解;“对匹配目标(1a)在上一次迭代的解附近做二次近似。不断解一串(二次规划)问题,来逼近原来的非线性规划。在这个玩具例子里,“二次近似”刚好就是原函数本身。我们现在要用“SQP 思想”一步一步往这个。然后解这个“目标二次 + 约束线性”的。
2025-12-11 15:22:49
812
原创 论文笔记(一百零八)Simulation-based pipeline tailors training data for dexterous robots
MIT研究人员开发了PhysicsGen系统,通过仿真数据扩增技术为机器人定制训练数据。该系统将少量VR示范转化为数千个仿真样本,优化机器人动作轨迹,提升任务执行效率。实验显示,虚拟机械手任务准确率提高60%,协作机械臂成功率提升30%。PhysicsGen有望构建多样化物理交互库,支持机器人学习新任务,未来或结合强化学习和感知技术,扩展至处理柔性物体。该研究获机器人与人工智能研究院及亚马逊资助,成果发表于Robotics: Science and Systems会议。
2025-12-10 20:19:21
916
原创 论文笔记(一百零七): Pi_RLOnline RL Fine-tuning for Flow-based Vision-Language-Action Models(二)
本文提出πRL框架,用于通过强化学习微调基于流的视觉-语言-动作(VLA)模型。针对流模型动作对数似然难以求解的问题,πRL提出两种算法:Flow-Noise将去噪过程建模为离散时间MDP并引入可学习噪声网络;Flow-SDE将去噪与交互结合为双层MDP,通过ODE到SDE转换实现高效探索。实验表明,πRL在LIBERO、ManiSkill和MetaWorld等基准任务上显著提升模型性能,如在LIBERO上将π0成功率从57.6%提升至97.6%,验证了在线强化学习对基于流VLA模型的有效性。
2025-12-05 19:26:58
1217
1
原创 论文笔记(一百零七): Pi_RLOnline RL Fine-tuning for Flow-based Vision-Language-Action Models(一)
视觉-语言-动作(Vision-Language-Action, VLA)模型使机器人能够基于多模态输入理解并执行复杂任务。 尽管已有研究尝试利用强化学习(Reinforcement Learning, RL)来自动化大规模监督微调(Supervised Fine-Tuning, SFT)中繁重的数据采集过程,但由于迭代去噪带来的动作对数似然难以求解,将大规模RL应用于基于流(flow-based)的VLA模型(例如 π0、π0.5)仍然面临巨大挑战。 为解决这一难题,我们提出了 πRL——一个用于在并行仿
2025-12-05 19:26:25
920
原创 论文笔记(一百零六)RynnVLA-002: A Unified Vision-Language-Action and World Model
本文提出了RynnVLA-002,一个将视觉-语言-动作(VLA)模型与世界模型相统一的创新框架。该模型通过联合学习环境动态和动作规划,实现了视觉理解与动作生成的相互促进。研究采用了混合架构设计,结合离散联合建模和连续的Action Transformer头,有效解决了自回归动作生成中的错误累积问题,提升了泛化能力和推理速度。实验结果表明,在LIBERO仿真基准上,RynnVLA-002取得了97.4%的成功率;在真实机器人任务中,其集成的世界模型使整体成功率提升了50%,显著优于单独的VLA或世界模型。
2025-12-02 22:36:09
1282
原创 论文笔记(一百零五)A review of learning-based dynamics models for robotic manipulation
本文综述了基于学习的动力学模型在机器人操作中的应用与发展。传统基于物理的动力学模型虽具泛化性,但依赖完整状态信息,而复杂场景中此类信息难以准确获取。学习型模型直接从观测数据中学习状态转移函数,能够捕捉复杂因素与不确定性,并加速实时仿真。研究显示,这些模型显著提升了机器人处理可变形物体、颗粒材料及多物体交互任务的能力。文章重点探讨了状态表示的选择对模型性能的影响,分析了不同模型结构的权衡,并讨论了其与状态估计和控制方法的结合。最后指出了该领域未来的研究方向与挑战。
2025-12-01 20:46:13
919
原创 论文笔记(一百零四)PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image
摘要 本文提出PhysX-Anything,首个可直接用于物理仿真的3D生成框架,能够从单张自然图像生成具有几何形状、关节结构和物理属性的高质量3D资产。该方法创新性地设计了基于视觉语言模型(VLM)的物理3D生成流程,并提出一种新型3D表示方法,可将几何token数量减少193倍,在有限token预算下实现显式几何学习。为克服现有物理3D数据集多样性不足的问题,作者构建了PhysX-Mobility数据集,包含47个类别2000余个常见物体,物理标注信息丰富。实验表明,PhysX-Anything在生成质
2025-11-25 19:05:16
737
原创 零碎的知识点(二十):3D 高斯为什么是椭球
球(圆)经过一个线性变换(矩阵 A) → 必然变成椭球。高斯分布里的等值面满足x−μTΣ−1x−μcx−μTΣ−1x−μc所以就是椭球。因为Σ−1Σ−1就是“把球拉成椭球”的那个变换矩阵。
2025-11-21 22:58:52
943
原创 论文笔记(一百零三)π0.6 : a VLA That Learns From Experience(二)
我们研究视觉-语言-行动(vision-language-action, VLA)模型如何在真实世界部署中通过强化学习(reinforcement learning, RL)持续提升能力。 我们提出了一种通用方法——基于优势条件策略的经验与纠正强化学习(RL with Experience and Corrections via Advantage-conditioned Policies, RECAP),该方法通过“优势条件化”(advantage conditioning)为 VLA 模型提供强化学习训
2025-11-20 17:59:17
1173
原创 论文笔记(一百零三)π0.6 : a VLA That Learns From Experience(一)
本文提出RECAP方法,通过优势条件策略实现视觉-语言-行动(VLA)模型的持续强化学习改进。该方法整合示教数据、自主执行数据和专家干预数据,采用离线强化学习预训练通用VLA模型π0.6,再通过真实机器人数据进行任务专业化。实验表明,完整RECAP流程能显著提升模型性能:在叠衣服、组装纸箱和操作咖啡机等复杂任务中,任务吞吐量提高2倍以上,失败率降低约一半。这使π0.6模型具备实际应用水平的鲁棒性,如连续13小时制作咖啡、2小时叠衣等。相比现有方法,RECAP支持更大规模模型训练,处理更复杂的真实世界任务。
2025-11-20 16:40:58
1334
原创 论文笔记(一百零二)Cambrian-S: Towards Spatial Supersensing in Video(二)
摘要:本文介绍了Cambrian-S在视频空间超感知领域的研究进展,重点围绕VSI-SUPER基准和VSI-590K数据集展开。VSI-SUPER包含Recall和Count两个子任务,分别通过插入不寻常物体和拼接室内视频测试模型的长时记忆与动态计数能力。VSI-590K数据集则系统定义了4类空间-时间问题,并详细描述了3D标注视频、模拟数据及网络视频的标注流程。实验表明,配置、测量和时空三类任务对空间感知均不可或缺,其中配置任务对路径规划的影响最显著。研究通过多模态数据构建和严格基准测试,推动了视频空间智
2025-11-18 20:37:30
858
原创 论文笔记(一百零二)Cambrian-S: Towards Spatial Supersensing in Video(一)
我们认为,要在真正的多模态智能上取得进展,就必须从那种被动响应、任务驱动的系统以及单纯依赖“暴力拉长上下文长度”的做法,转向一种更为宏观的“超级感知”(supersensing)范式。我们将空间超级感知划分为超越“仅凭语言理解”的四个阶段:语义感知(给看到的内容命名)、流式事件认知(在连续体验中保持记忆)、隐式三维空间认知(从像素背后推断现实世界),以及预测式世界建模(构建用于过滤和组织信息的内部世界模型)。现有的评测基准大多只覆盖前两个早期阶段,对空间认知的覆盖范围很窄,也很少以真正需要世界建模的方式来挑
2025-11-18 16:30:50
882
原创 论文笔记(一百零一)MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual
从大规模、异质的人类示范中进行模仿学习已被证明对训练机器人有效,但收集此类数据代价高昂且耗时。对于多步骤的双臂移动操作,这一挑战更为严峻,因为人类需要同时远程操控移动底座和两只高自由度机械臂。先前的 X-Gen 工作已经为静态(双臂)操作任务构建了自动化数据生成框架,即在仿真中用新的场景配置扩增少量人类示范,从而合成大规模数据集。然而,这些方法在双臂移动操作任务上存在不足,主要有两个原因:1)移动底座带来了如何摆放机器人底座以支持后续操作(可达性)的问题,以及2)可动相机带来了如何布置相机以为视觉—
2025-11-17 11:08:51
1120
原创 论文笔记(一百)GEN-0 / Embodied Foundation Models That Scale with Physical Interaction
GEN-0是一种新型具身基础模型,能够在真实物理交互数据上进行多模态训练,实现智能随规模扩展的可预测提升。其关键创新包括: 在70亿参数规模首次观察到机器人领域的"相变"现象,突破智能阈值; 建立了机器人领域的扩展定律,呈现预训练数据量与性能间的幂律关系; 提出谐振推理机制,实现行动与思考的异步协调; 支持跨机型适配,在6-16自由度机器人上测试成功; 基于27万+小时持续增长的物理交互数据集训练。实验表明GEN-0能有效完成复杂物理推理任务,如物体装箱等新任务,标志着具身智能进入规模化
2025-11-15 23:07:21
1017
原创 论文笔记(九十九)OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing
OmniVTLA是一种新型视觉-触觉-语言-动作模型,通过语义对齐的触觉感知提升机器人操作能力。该研究提出三点关键贡献:1) 双路径触觉编码器框架,使用视觉Transformer与语义对齐触觉ViT增强多模态触觉感知;2) ObjTac触觉数据集,包含13.5万条文本-视觉-触觉三模态样本;3) 基于数据集训练的语义对齐触觉编码器。实验表明,OmniVTLA在抓取放置任务中显著优于现有VLA方法,夹爪成功率提升21.9%至96.9%,灵巧手达100%成功率,同时生成更平滑的运动轨迹。该工作为接触密集型任务提
2025-11-07 17:22:25
1257
原创 论文笔记(九十八)Flow-GRPO: Training Flow Matching Models via Online RL
我们提出了Flow-GRPO,这是首个将在线策略梯度强化学习(RL)融入流匹配模型的算法。我们的方法包含两项关键策略:(1)$\text{ODE}\to \text{SDE}$转化:将确定性的常微分方程($\text{ODE}$)转换为与原模型在所有时间步边缘分布一致的等价随机微分方程($\text{SDE}$),从而为强化学习的探索提供可统计采样;以及(2)去噪步数削减(Denoising Reduction):在训练中减少去噪步数,同时保留推理时的原有步数,从而在不牺牲性能的前提下显著提升采样效率。在
2025-11-07 11:10:33
1199
原创 论文笔记(九十七)PhysiAgent: An Embodied Agent Framework in Physical World
本文提出PhysiAgent框架,创新性地将视觉-语言模型(VLM)与视觉-语言-动作模型(VLA)集成应用于物理世界。不同于传统僵化的串行结构,PhysiAgent通过监控、记忆和反思机制构建自适应"脚手架",使VLM能动态调节各组件协作。实验表明,该框架在真实机器人任务中显著提升性能,展现出自我调节和自适应演化能力。PhysiAgent为具身智能体实现物理世界落地提供了务实而开创性的解决方案。
2025-10-31 18:02:44
575
原创 论文笔记(九十六)VGGT: Visual Geometry Grounded Transformer
引用:主页:原文: https://openaccess.thecvf.com/content/CVPR2025/html/Wang_VGGT_Visual_Geometry_Grounded_Transformer_CVPR_2025_paper.html代码、数据和视频:系列文章:请在 《《《文章》》》 专栏中查找我们提出VGGT,这是一种前馈神经网络,能够直接从场景的一张、几张,甚至上百张视图中,推断出该场景的所有关键3D属性,包括相机参数、点图、深度图以及3D点轨迹。在3D计算机视觉领域
2025-10-24 21:41:36
1330
原创 论文笔记(九十五)Latent Policy Barrier: Learning Robust Visuomotor Policies by Staying In-Distribution
通过行为克隆训练的视觉—运动策略容易受到协变量偏移的影响,其中,来自专家轨迹的微小偏离会逐步累积并最终导致失败。缓解该问题的常见策略是扩展训练分布,例如引入人类在环的纠偏或进行合成数据增强。然而,这些方法往往劳动强度大、强烈依赖任务假设,或会牺牲模仿质量。我们提出Latent Policy Barrier(潜在策略屏障,LPB),用于鲁棒的视觉—运动策略学习。
2025-10-17 21:17:29
786
原创 论文笔记(九十四)EmbodiedCoder: Parameterized Embodied Mobile Manipulation via Modern Coding Model
EmbodiedCoder: 基于现代编码模型的参数化具身移动操作框架 本文提出EmbodiedCoder,一种无需训练的开放世界移动机器人操作框架,通过代码生成连接感知与操作。该框架将高层指令转换为可执行代码,实现物体几何参数化和操作轨迹合成。具体流程包括:1)从视觉输入获取物体参数化几何模型;2)生成与几何一致的轨迹代码;3)执行离散化的航点轨迹。实验表明,该方法在真实移动机器人上能稳健处理多样化任务,并具有新环境泛化能力。相比传统依赖预定义操作元或大规模训练的方法,EmbodiedCoder提供了一种
2025-10-13 18:25:32
1062
原创 论文笔记(九十三)ManipulationNet: Benchmarking
挑战与差距 现有方法在推动机器人操作基准化方面取得了显著进展,但仍面临三个关键挑战(如图2所示): 现实性缺失:基于仿真的基准虽能实现大规模评测,但受限于物理引擎的准确性,难以完全反映真实世界的复杂性。接触动力学、摩擦力和材料变形等物理现象的模拟不完美,导致仿真结果与真实操作存在差距。 可访问性不足:现实世界竞赛和集中式评测设施虽然提供真实环境,但受限于地理位置和硬件资源,难以广泛覆盖全球研究社区。远程访问的同构机器人平台(如Real Robot Challenge)虽部分解决了这一问题,但仍存在排队等待和
2025-10-12 12:18:25
1291
原创 论文笔记(九十二)RLVR-World: Training World Models with Reinforcement Learning
本文提出RLVR-World框架,通过强化学习直接优化世界模型的任务相关指标。传统方法(如MLE)往往与最终目标不对齐,导致预测模糊或重复等问题。RLVR-World将不同模态的世界建模统一为自回归生成问题,利用可验证奖励(如准确率、感知质量)进行微调。实验表明,该方法在语言和视频世界模型中均显著提升性能:文本游戏状态预测准确率提高30.7%,网页状态预测F1分数提升15.1%,机器人操作轨迹预测LPIPS指标改善9.2%。研究证明RLVR可作为通用后训练范式,有效增强世界模型的实用性。
2025-09-18 21:43:52
1411
原创 论文笔记(九十一)GWM: Towards Scalable Gaussian World Models for Robotic Manipulation
本文提出高斯世界模型(GWM),一种用于机器人操作的新型三维世界模型。GWM结合三维高斯点绘(3D-GS)与扩散Transformer,通过动作条件预测实现精细场景重建。其核心创新包括:1)三维高斯变分自编码器压缩表示,实现高效潜在空间建模;2)支持模仿学习的视觉表征增强;3)作为神经模拟器用于基于模型的强化学习。实验表明,GWM在31个机器人任务中显著优于现有方法(最高提升16.25%),并在现实场景中使扩散策略性能提升30%。该工作展示了三维世界模型在机器人操作中的数据扩展潜力。
2025-09-16 21:36:30
1395
原创 机器人控制知识点(一):机器人控制中的位置环增益 $K_p$ 是什么?
本文介绍了机器人控制中位置环增益 (K_p) 的概念和作用。(K_p) 是 PD 控制器中的比例增益,决定了系统对位置误差的敏感程度。(K_p) 越大,系统响应越快,但过大可能导致抖动;过小则响应迟缓。(K_p) 需配合微分增益 (K_d) 使用,(K_p) 提供恢复力,(K_d) 提供阻尼,共同实现快速稳定的控制效果。
2025-09-08 20:36:59
1246
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅