三谷秋水-CSDN博客

原创 S4-Driver：具有时空视觉表征的可扩展自监督驾驶多模态大语言模型

25年5月来自 UC Berkeley、Waymo、Cornell 和 Georgia Tech 的论文“S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal Visual Representation”。多模态大语言模型 (MLLM) 的最新进展重新激起人们对自动驾驶端到端运动规划方法的浓厚兴趣。许多端到端方法依靠人类注释来学习中间感知和预测任务，而纯自监督方法（

2025-06-10 00:15:00 440

原创 GeoDrive：基于三维几何信息有精确动作控制的驾驶世界模型

25年5月来自北大、理想汽车和 UC Berkeley 的论文“GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control”。世界模型的最新进展彻底改变动态环境模拟，使系统能够预见未来状态并评估潜在行动。在自动驾驶中，这些功能可帮助车辆预测其他道路使用者的行为、执行风险意识规划、加速模拟训练并适应新场景，从而提高安全性和可靠性。当前的方法在保持强大的 3D 几何一致性或在遮挡处理期间累积伪影方面表现出不足，

2025-06-10 00:15:00 645

原创慢-中-快：快速操作与慢速推理统一的双-系统基础模型

25年6月来自香港中文大学、北大、智平方（AI2Robotics）和北京智源研究院的论文“Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning”。广义策略和执行效率是机器人操作中的两个关键挑战。虽然最近的基础策略受益于互联网规模的预训练视觉语言模型 (VLM) 的常识推理能力，但它们往往受到执行频率低的困扰。为了缓解这一困境，受卡尼曼（Kahneman）理论的启发，提出了

2025-06-09 00:15:00 84

原创 SwitchVLA：视觉-语言-动作模型中执行-觉察的任务切换

25年6月来自北京人形机器人创新中心的论文“SwitchVLA: Execution-Aware Task Switching for Vision-Language-Action Models”。部署在动态环境中的机器人不仅必须能够遵循多种语言指令，还必须能够灵活地适应用户意图在执行过程中的变化。虽然最近的“视觉-语言-动作”（VLA）模型在多任务学习和指令遵循方面取得了进展，但它们通常假设任务意图是静态的，无法在执行过程中收到新指令时做出响应。这种限制阻碍在动态设置（例如零售或家庭环境）中自然而稳健

2025-06-09 00:15:00 557

原创 SmolVLA：经济高效的机器人视觉-语言-动作模型

25年6月来自 Hugging Face 的论文“SmolVLA: A vision-language-action model for affordable and efficient robotics”。在大规模多模态数据集上预训练的视觉-语言模型 (VLM) 能够编码丰富的视觉和语言知识，为机器人技术奠定坚实的基础。近期的方法并非从零开始训练机器人策略，而是将 VLM 改编成视觉-语言-动作 (VLA) 模型，从而实现自然语言驱动的感知和控制。然而，现有的 VLA 通常规模庞大——通常包含数十亿个

2025-06-08 00:15:00 829

原创 OG-VLA：通过正交图像生成的 3D-觉察视觉-语言-动作模型

25年6月来自USC、Nvidia 和 Georgia Tech 的论文“OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation”。OG-VLA，是一种架构和学习框架，它将视觉语言动作模型 (VLA) 的泛化优势与 3D -觉察策略的稳健性相结合。其解决将自然语言指令和多视图 RGB-D 观测映射到准静态机器人动作的挑战。3D -觉察机器人策略在精确的机器人操作任务上实现最先进的性能，但在泛化到未见过

2025-06-08 00:15:00 600

原创 LoHoVLA：面向长范围具身任务的统一视觉-语言-动作模型

25年6月来自复旦、上海科技大学和上海交大的论文“LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks”。现实世界中的具身智体面临着长期任务，其特点是高层次的目标需要多步骤的解决方案，而非单一的动作。成功完成这些任务需要高层次的任务规划（即将目标分解为子任务）和低层次的运动控制（即生成精确的机器人动作）。虽然现有的视觉-语言-动作 (VLA) 模型和分层架构在具身任务中展现出潜力，但前者在规划方面往

2025-06-07 04:00:00 829

原创 SLAC：用于全身真实世界强化学习的模拟预训练潜动作空间

25年6月来自德州 Austin 分校及其SONY和Amazon合作的论文“SLAC: Simulation-Pretrained Latent Action Space for Whole-Body Real-World RL”。构建功能强大的家用和工业机器人需要掌握多功能高自由度 (DoF) 系统（例如移动机械手）的控制。虽然强化学习 (RL) 有望实现机器人的自主控制策略，但将其扩展到高自由度实施例仍然具有挑战性。现实世界中的直接 RL 需要安全的探索和高采样效率，这在实践中很难实现。另一方面，由

2025-06-07 04:00:00 1019

原创 ForceVLA：利用力-觉察 MoE 增强 VLA 模型以实现丰富接触的操作

25年5月来自复旦、上海交大、新加坡国立、上海大学和西交大的论文“ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation”。

2025-06-06 00:15:00 616

原创 DexMachina：双手灵巧操作的功能重定向

25年5月来自斯坦福和Nvidia的论文“DexMachina: Functional Retargeting for Bimanual Dexterous Manipulation”。本文研究功能重定向问题：学习灵巧操作策略，从人手-目标演示中追踪目标状态。其专注于涉及铰接目标的长时域双手操作任务，由于动作空间巨大、时空不连续性以及人手与机器人手之间的具身差异，这项任务极具挑战性。其提出一种基于课程的算法 DexMachina，其核心思想是使用强度衰减的虚拟目标控制器：首先自动驱动目标向其目标状态移动

2025-06-06 00:15:00 877

原创以人类演示视频为提示，学习可泛化的机器人策略

25年5月来自清华大学、上海姚期智研究院和星动纪元（RoboEra）公司的论文“Learning Generalizable Robot Policy with Human Demonstration Video as a Prompt”。最近的机器人学习方法通常依赖于从通过遥操作收集的大量机器人数据集中进行模仿学习。当面对新任务时，此类方法通常需要收集一组新的遥操作数据并微调策略。此外，遥操作数据收集流程也很繁琐且昂贵。相反，人类只需观察他人操作即可高效地学习新任务。本文介绍一种两阶段框架，如图所

2025-06-05 00:15:00 1585

原创 DexUMI：以人手为通用操作界面，实现灵巧操作

25年5月来自斯坦福大学、哥伦比亚大学、JP Morgan 研究、CMU 和 Nvidia 的论文“DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation”。DexUMI——一个数据收集和策略学习框架，它使用人手作为自然界面，将灵巧的操作技能转移到各种机械手上。DexUMI 包括硬件和软件适配，以最大限度地缩小人手和各种机械手之间的具体差距。硬件适配使用可穿戴手的外骨骼来弥合运

2025-06-05 00:15:00 1397

原创 Impromptu VLA：用于驾驶视觉-语言-动作模型的开放权重和开放数据

25年5月来自清华和博世的论文“Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models”。用于自动驾驶的“视觉-语言-动作” (VLA) 模型前景光明，但在非结构化极端场景下却表现不佳，这主要是由于缺乏有针对性的基准测试。为了解决这个问题， Impromptu VLA。其核心贡献是 Impromptu VLA 数据集：超过 8 万个精心挑选的视频片段，是从 8 个开源大型数据集的超过 200

2025-06-04 00:15:00 1401

原创通过基于流视频预测的可泛化双手操作基础策略

25年5月来自中国电信、西北工业大学和香港科大的论文“Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction”。由于动作空间巨大且需要协调手臂运动，学习可泛化的双手操作策略对于具身智体而言极具挑战性。现有方法依赖于视觉-语言-动作 (VLA) 模型来获取双手操作策略。然而，从单臂数据集或预训练 VLA 模型迁移知识通常无法有效泛化，这主要是由于双手数据的匮乏以及单臂和双手操作之间的根本差异。本文

2025-06-04 00:15:00 2274

原创 RM-R1：奖励建模为推理

25年5月来自伊利诺伊州 UIUC、加州 UCSD、德州 TAMU 和新泽西州 Stevens 理工的论文“RM-R1: Reward Modeling as Reasoning”。奖励建模对于通过从人类反馈中进行强化学习将大语言模型与人类偏好相一致至关重要。为了提供准确的奖励信号，奖励模型 (RM) 应该在分配分数或判断之前激发深度思考并进行可解释的推理。受到推理密集型任务中长思维链最新进展的启发，假设并验证将推理能力集成到奖励建模中可以显著提高 RM 的可解释性和性能。为此，本文引入一类生成奖励模型

2025-06-03 00:15:00 992

原创 TTRL：测试-时间强化学习

25年4月来自清华和上海AI实验室的论文“TTRL: Test-Time Reinforcement Learning”。本文研究在大语言模型 (LLM) 中针对推理任务的无明确标签数据强化学习 (RL)。该问题的核心挑战是在无法访问真实信息的情况下在推理过程中进行奖励估计。虽然这种设置似乎难以捉摸，但测试-时间规模化 (TTS) 中的常见做法（例如多数投票）可以产生令人惊讶的有效奖励，适合推动 RL 训练。这项工作引入测试-时间强化学习 (TTRL)

2025-06-03 00:15:00 839

原创 LightEMMA：用于自动驾驶的轻量级端到端多模态模型

25年5月来自密歇根大学和密歇根大学交通研究所的论文“LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving”。视觉-语言模型 (VLM) 已展示出端到端自动驾驶的巨大潜力。然而，充分利用其安全可靠的车辆控制能力仍然是一个开放的研究挑战。为了系统地研究 VLM 在驾驶任务中的进步和局限性，LightEMMA，一种用于自动驾驶的轻量级端到端多模态模型。LightEMMA 提供了一个统一的、基于 VLM 的自动驾驶框

2025-06-02 00:15:00 1121

原创端到端视觉 token 化器调优

25年5月来自自动化所、中科院大学、北京智源、大连理工和清华的论文“End-to-End Vision Tokenizer Tuning”。现有的视觉 token 化方法将视觉 token 化器的优化与下游训练分离开来，隐式地假设视觉 token 可以推广到各种任务，例如图像生成和视觉问答。针对低级重建而优化的视觉 token 化器与需要各种表示和语义的下游任务无关。这种解耦范式引入了一个关键的错位：视觉 token 化的丢失可能成为目标任务的表示瓶颈。例如，图像中文本的token化错误会导致识别或生成

2025-06-02 00:15:00 637

原创统一多模态预训练中的涌现特性

25年5月来自字节、深圳先进技术研究院、Monash 大学、香港科大和 UC Santa Cruz 的论文“Emerging Properties in Unified Multimodal Pretraining”。统一多模态理解与生成已在尖端专有系统中展现出令人瞩目的能力。本研究的 BAGEL，是一个原生支持多模态理解与生成的开源基础模型。BAGEL 是一个统一的、仅用于解码器的模型，已基于从大规模交错文本、图像、视频和 Web 数据中精选的数万亿个 tokens 进行预训练。当使用如此多样化的多

2025-06-01 00:15:00 925

原创 AgentThink：在自动驾驶的一个统一框架，视觉-语言模型中工具增强的思维链推理

25年5月来自清华大学、Mcgill大学、小米公司和 Wisconsin（Madison）大学的论文“AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving”。视觉语言模型 (VLM) 在自动驾驶领域前景广阔，然而它们容易产生幻觉、推理效率低下，以及现实世界验证不足，这些因素阻碍了它们实现准确的感知和稳健的逐

2025-06-01 00:15:00 722

原创 OneTwoVLA：具有自适应推理能力的统一视觉-语言-动作模型

25年5月来自清华大学、上海姚期智研究院、上海 AI 实验室、复旦大学和 Spirit AI 的论文“OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning”。能够执行多种任务的通用机器人需要协同推理和行动能力。然而，最近的双-系统方法将高级推理与低级行动分离，常常面临诸如系统间能力相互理解有限以及延迟问题等挑战。本文介绍 OneTwoVLA，一个统一的视觉-语言-动作模型，可以同时执行行动（系统 1）和推理（系

2025-05-31 00:15:00 919

原创目标-焦点执行器实现数据高效的机器人泛化灵巧操作

25年5月来自 JD 集团和北京交通大学的论文“Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation”。机器人操作学习从人类演示中学习提供了一种快速掌握技能的方法，但通常缺乏跨不同场景和物体位置的泛化能力。这一局限性阻碍了其在现实世界中的应用，尤其是在需要灵巧操作的复杂任务中。视觉-语言-动作 (VLA) 范式利用大规模数据来增强泛化能力。然而，由于数据稀缺，VLA 的性能仍然有限。本研究引入目

2025-05-31 00:15:00 809

原创知识隔离的视觉-语言-动作模型：训练更快、运行更快、泛化更好

25年5月来自PI的论文“Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better”。视觉-语言-动作 (VLA) 模型通过将端到端学习与来自网络规模视觉-语言模型 (VLM) 训练的语义知识迁移相结合，为机器人等物理系统训练控制策略提供了一种强大的方法。

2025-05-30 00:15:00 1080

原创 DexWild：野外机器人策略的灵巧人机交互

25年5月来自 CMU 的论文“DexWild: Dexterous Human Interactions for In-the-Wild Robot Policies”。大规模、多样化的机器人数据集已成为将灵巧操作策略泛化到新环境的一条有效途径，但获取此类数据集面临诸多挑战。虽然遥操作可以提供高保真度的数据集，但其高昂的成本限制了其可扩展性。如果人们能够像在日常生活中一样用自己的双手来收集数据，情况会怎样？在 DexWild 中，一个由多元化数据收集人员组成的团队用双手收集了跨越众多环境和物体的数小时

2025-05-30 00:15:00 1042

原创 LeRobot 实现的 PI 0 FAST 策略

本文详细介绍 LeRobot 框架中 PI 0 FAST 策略的实现。PI 0 FAST（π0 + FAST）是一个高效的视觉-语言-动作模型，它使用快速动作 token 化 (FAST) 来紧凑地表示机器人动作。该策略处理多模态输入（图像、机器人状态、语言指令），并通过 token 化生成连续的机器人动作。

2025-05-29 08:14:13 777

原创 LeRobot 实现的 PI 0 策略

PI0（π0）是 LeRobot 框架中用于通用机器人控制的视觉-语言-动作流模型。它结合了视觉感知、语言理解和流匹配技术，能够基于多模态输入（图像、语言指令和机器人状态）生成精确的机器人动作。在此介绍 PI0 策略系统的架构、实现和使用方法。

2025-05-29 08:03:25 578

原创 MASt3R-SLAM：具有 3D 重建先验的实时密集 SLAM

24年12月来自英国 ICL 的论文“MASt3R-SLAM：具有 3D 重建先验的实时密集 SLAM”， CVPR'25录取。本文提出一个实时单目密集 SLAM 系统，该系统由 MASt3R 自下而上设计而成，MASt3R 是一个双视图 3D 重建和匹配先验。凭借这一强大的先验，尽管系统没有对唯一相机中心以外的固定或参数相机模型做出任何假设，但它在野外视频序列上仍然具有鲁棒性。其引入点图匹配、相机跟踪和局部融合、图构建和回环以及二阶全局优化的有效方法。在已知标定的情况下，对系统进行简单的修改即可在各种

2025-05-28 00:15:00 1814

原创快速方法：Speedy MASt3R

25年3月来自Arizona State 和 JHU的论文“Speedy MASt3R”。图像匹配是 3D 视觉算法和流程的基本组成部分，在精确的场景重建和定位中发挥着至关重要的作用。MASt3R [11] 利用 DUSt3R [24] 并引入一种快速互易匹配方案，将图像匹配重新定义为一项 3D 任务，该方案在保持理论验证的同时，将匹配速度提高了几个数量级。

2025-05-28 00:15:00 1968

原创 Interleave-VLA：通过交错图像-文本指令增强机器人操控能力

25年5月来自上海交大、UC Berkeley 和 UNC Chapel Hill 的论文“Interleave-VLA: Enhancing Robot Manipulation with Interleaved Image-Text Instructions”。视觉-语言-动作 (VLA) 模型已展现出在物理世界中实现通用机器人操控的巨大潜力。然而，现有模型受限于机器人观测和纯文本指令，缺乏数字世界中基础模型最新进展所带来的交错多模态指令的灵活性。本文提出 Interleave-VLA，这是一个能够

2025-05-27 00:15:00 824

原创 Real2Render2Real：无需动力学仿真或机器人硬件即可扩展机器人数据

25年5月来自UC Berkeley 和 TRI 的论文“Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware”。扩展机器人学习需要大量且多样化的数据集。然而，现行的数据收集范式——人类遥操作——仍然成本高昂，且受到手动操作和机器人物理访问的限制。Real2Render2Real (R2R2R)，这是一种无需依赖目标动力学模拟或机器人硬件遥操作即可生成机器人训练数据的新方法。输入是智能手机拍摄

2025-05-27 00:15:00 1469 1

原创类似ROS 面向机器人开发的中间件Dora-rs （上）

Dora-rs 是一个用于构建低延迟、可组合、分布式数据流应用程序的框架。本文概述 Dora 框架的系统架构、执行模型和主要功能，并详细介绍各个模块的细节。![请添加图片描述](https://i-blog.csdnimg.cn/direct/e4036fdb887249b19888c22d31cf074e.png)## Dora 概述Dora-rs（面向数据流的机器人架构）是一个基于 Rust 的框架，支持跨多种语言和机器创建高效的数据流应用程序。它遵循声明式数据流范式，将任务拆分到独立的进

2025-05-26 00:15:00 687

原创类似ROS 面向机器人开发的中间件Dora-rs （下）

Dora-rs 是一个用于构建低延迟、可组合、分布式数据流应用程序的框架。本文概述 Dora 框架的系统架构、执行模型和主要功能，并详细介绍各个模块的细节。

2025-05-26 00:15:00 979

原创 Embodied-R：通过强化学习激活基础模型中具身空间推理能力的协作框架

25年4月来自清华大学的论文“Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning”。人类可以从连续的视觉观察（例如以自我为中心的视频流）中感知和推理空间关系。然而，预训练模型如何获得这种能力，尤其是高级推理能力，仍不清楚。本文介绍 Embodied-R，这是一个协作框架，它结合用于感知的大规模视觉-语言模型

2025-05-25 00:15:00 700

原创 RoBridge：通用机器人操作中一种搭桥认知与执行的分层架构

25年5月来自中山大学、MBZUAI、深圳鹏城实验室和拓元智慧的论文“RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation”。在开放式场景下操作机器人执行多样化任务是机器人技术领域的一个重要研究和应用方向。虽然自然语言处理和大型多模态模型的最新进展增强了机器人理解复杂指令的能力，但在开放环境中，机器人操作仍然面临着程序性技能困境和声明性技能困境。现有方

2025-05-25 00:15:00 1172

空空如也

空空如也