
智能体
文章平均质量分 89
三谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
Hugging Face 中 LeRobot 学习的策略
在 LeRobot 中,策略是一种机器学习模型,旨在根据各种输入模式控制机器人。每个策略实现共享一个通用接口,同时提供针对不同任务和数据类型优化的不同底层算法和架构。原创 2025-05-21 00:15:00 · 456 阅读 · 0 评论 -
视觉与语言导航的现状与未来:基础模型时代综述
24年12月来自密歇根州立、密歇根大学、UNC Chapel Hill 和澳大利亚阿德莱德大学的论文“Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models”。近年来,视觉与语言导航 (VLN) 备受关注,并涌现出众多方法以推动其发展。基础模型的卓越成就塑造 VLN 研究的挑战和方法。本综述自上而下地回顾具身规划和推理的原则性框架,并重点介绍利用基础模型应对 VLN 挑战的现有原创 2025-05-21 00:15:00 · 572 阅读 · 0 评论 -
视觉-和-语言导航的综述:任务、方法和未来方向
22年6月来自UC Santa Cruz、澳大利亚的阿德莱德大学和 USC 的论文“Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions”。人工智能研究的一个长期目标是构建能够用自然语言与人类交流、感知环境并执行现实世界任务的智体。视觉与语言导航 (VLN) 是实现这一目标的一个基础性跨学科研究课题,并日益受到自然语言处理、计算机视觉、机器人技术和机器学习领域的关注。本文回顾 VLN 这一新兴领原创 2025-05-20 00:15:00 · 797 阅读 · 0 评论 -
视觉-语言导航:综述与类别
22年4月来自国防科大的论文“Vision-Language Navigation: A Survey and Taxonomy”。视觉-语言导航 (VLN) 任务要求智体遵循人类语言指令,在未曾见过的环境中导航。这个充满挑战的领域涉及自然语言处理、计算机视觉、机器人技术等领域,并催生了众多专注于各种 VLN 任务的优秀成果。本文对这些任务进行了全面的综述,并根据这些任务中语言指令的不同特点,对其进行了深入的分类。根据导航指令是一次性给出还是多次给出,本文将任务分为两类:单轮任务和多轮任务。对于单轮任务原创 2025-05-20 00:15:00 · 669 阅读 · 0 评论 -
具身智能时代基于物理模拟器的机器人导航与操控研究
25年5月来自香港城市大学、墨尔本大学和汉堡大学的论文“A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI”。导航和操控是具身智能的核心能力,然而在现实世界中训练具备这些能力的智体却面临着高昂的成本和时间复杂度。因此,模拟-到-现实的迁移已成为一种关键方法,但模拟-到-现实的差距仍然存在。本综述分析被忽视的物理模拟器特性,探讨如何弥补这一差距。还分析它们在导航和原创 2025-05-19 00:15:00 · 1014 阅读 · 0 评论 -
Hugging Face 开发的 LeRobot 框架安装说明
本文档提供了安装 LeRobot 框架的全面说明,该框架是一个基于 PyTorch 的库,用于现实世界机器人领域的最先进 AI。原创 2025-05-19 00:15:00 · 740 阅读 · 0 评论 -
Hugging Face 开发的 LeRobot 框架介绍
LeRobot 是由 Hugging Face 开发的基于 PyTorch 的现实世界机器人框架。它提供了用于机器人学习的先进模型、数据集和工具,重点关注模仿学习和强化学习方法。原创 2025-05-18 00:15:00 · 666 阅读 · 0 评论 -
基于模型的重标注学习在任何地方驾驶
25年5月来自UC Berkeley、丰田汽车北美分公司和普林斯顿大学的论文“Learning to Drive Anywhere with Model-Based Reannotation”。开发可泛化的机器人视觉导航策略是一项重大挑战,主要受限于能否获得大规模、多样化的训练数据。虽然研究人员收集的精选数据集质量较高,但其有限的规模限制了策略的泛化。为了克服这一问题,本文探索利用丰富的被动收集数据源,包括大量众包遥操作数据和未标记的 YouTube 视频,尽管这些数据可能质量较低或缺少动作标签。提出的原创 2025-05-18 00:15:00 · 807 阅读 · 0 评论 -
学习以任务为中心的潜动作,随地采取行动
25年5月来自香港大学、OpenDriveLab 和智元机器人的论文“Learning to Act Anywhere with Task-centric Latent Actions”。通用机器人应该在各种环境中高效运行。然而,大多数现有方法严重依赖于扩展动作标注数据来增强其能力。因此,它们通常局限于单一的物理规范,难以学习跨不同具身和环境的可迁移知识。为了突破这些限制,UniVLA,是一个用于学习跨具身视觉-语言-动作 (VLA) 策略的全新框架。关键创新在于利用潜动作模型从视频中获取以任务为中心的原创 2025-05-17 00:15:00 · 895 阅读 · 0 评论 -
ReinboT:通过强化学习增强机器人视觉-语言操控能力
25年5月来自浙大和西湖大学的论文“ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning”。视觉-语言-动作 (VLA) 模型通过模仿学习在一般机器人决策任务中展现出巨大潜力。然而,训练数据的质量参差不齐通常会限制这些模型的性能。另一方面,离线强化学习 (RL) 擅长从混合质量数据中学习稳健的策略模型。本文介绍强化的机器人 GPT (ReinboT),这是一种端到端 VLA 模型,它集成 RL原创 2025-05-17 00:15:00 · 1022 阅读 · 0 评论 -
Hugging Face 中 LeRobot 使用的入门指南
本页面提供 LeRobot 的快速入门指南,涵盖如何加载数据集、评估预训练策略以及训练您自己的模型。原创 2025-05-16 00:15:00 · 712 阅读 · 0 评论 -
LeRobot 框架的核心架构概念和组件(下)
机器人控制系统是 LeRobot 框架的核心组件,提供用于操作、标定和记录物理机器人数据的接口。该系统支持遥操作、记录演示数据集、重放动作以及在真实机器人上运行已训练的策略。它充当用户、物理机器人硬件和训练流程之间的桥梁。原创 2025-05-16 00:15:00 · 1111 阅读 · 0 评论 -
LeRobot 框架的核心架构概念和组件(中)
环境系统提供与模拟环境交互的统一接口。这些环境允许在部署到物理机器人之前,在受控环境中训练和评估策略。LeRobot 与 Gymnasium(原名 Gym)集成,提供标准化的环境接口。环境创建通过工厂模式处理,从而可以一致地创建不同类型的环境:Aloha:双臂操控环境PushT:桌面推动环境XArm:单臂操控环境原创 2025-05-15 00:15:00 · 570 阅读 · 0 评论 -
LeRobot 框架的核心架构概念和组件(上)
LeRobot 采用模块化架构设计,在提供统一的机器人学习接口的同时,也兼具灵活性。该框架的核心由四个主要子系统组成:策略系统 - 实现各种机器人控制学习算法数据集管理 - 处理机器人数据的存储、加载和预处理环境接口 - 提供与模拟环境交互的抽象层机器人控制系统 - 管理机器人物理硬件和控制模式原创 2025-05-15 00:15:00 · 942 阅读 · 0 评论 -
RobotxR1:通过闭环强化学习在大语言模型上实现具身机器人智能
25年5月来自瑞士 ETH 的论文“RobotxR1: Enabling Embodied Robotic Intelligence on Large Language Models through Closed-Loop Reinforcement Learning”。未来在现实环境中运行的机器人系统将需要机载具身智能,而无需持续的云连接,从而在功能与计算能力和内存限制之间取得平衡。这项工作提出 R1-zero 方法的扩展,该方法支持在机器人领域使用低参数计数大语言模型 (LLM)。R1-Zero 方原创 2025-05-14 00:15:00 · 1380 阅读 · 0 评论 -
GraspVLA:基于Billion-级合成动作数据预训练的抓取基础模型
25年5月来自银河通用(Galbot)、北大、港大和 BAAI 的论文“GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data”。具身基础模型因其零样本泛化能力、可扩展性以及通过少量后训练即可适应新任务的优势,正日益受到关注。然而,现有模型严重依赖真实世界数据,而这些数据的收集成本高昂且耗费人力。合成数据提供了一种经济高效的替代方案,但其潜力仍未被充分开发。为了弥补这一不足,本文探索原创 2025-05-14 00:15:00 · 953 阅读 · 0 评论 -
视觉-语言-动作模型:概念、进展、应用与挑战(下)
25年5月来自 Cornell 大学、香港科大和希腊 U Peloponnese 的论文“Vision-Language-Action Models: Concepts, Progress, Applications and Challenges”。视觉-语言-动作 (VLA) 模型标志着人工智能的变革性进步,旨在将感知、自然语言理解和具体动作统一在一个计算框架内。这篇基础综述全面总结视觉-语言-动作模型的最新进展,并系统地涵盖构成这一快速发展领域格局的五大主题支柱。原创 2025-05-13 00:15:00 · 1417 阅读 · 0 评论 -
视觉-语言-动作模型:概念、进展、应用与挑战(上)
25年5月来自 Cornell 大学、香港科大和希腊 U Peloponnese 的论文“Vision-Language-Action Models: Concepts, Progress, Applications and Challenges”。视觉-语言-动作 (VLA) 模型标志着人工智能的变革性进步,旨在将感知、自然语言理解和具体动作统一在一个计算框架内。这篇基础综述全面总结视觉-语言-动作模型的最新进展,并系统地涵盖构成这一快速发展领域格局的五大主题支柱。首先建立 VLA 系统的概念基础,追原创 2025-05-13 00:15:00 · 1031 阅读 · 0 评论 -
机器人操作的扩散模型:综述
25年4月来自德国 KIT 的论文“DIFFUSION MODELS FOR ROBOTIC MANIPULATION: A SURVEY”。扩散生成模型在图像和视频生成等视觉领域取得了显著成功。近年来,它们在机器人技术领域,尤其是在机器人操控领域,也逐渐成为一种颇具前景的方法。扩散模型利用概率框架,并以其对多模态分布的建模能力以及对高维输入和输出空间的鲁棒性而脱颖而出。本综述全面回顾机器人操控领域中最先进的扩散模型,包括抓取学习、轨迹规划和数据增强。用于场景和图像增强的扩散模型,处于机器人技术和计算机原创 2025-05-12 03:00:00 · 801 阅读 · 0 评论 -
VideoMimic:视觉模仿实现上下文人形机器人控制
25年5月来自UC Berkeley 的论文“Visual Imitation Enables Contextual Humanoid Control”。如何教会类人机器人利用周围环境上下文爬楼梯和坐在椅子上?或许最简单的方法就是直接展示——随意捕捉一段人体运动视频,然后将其输入给类人机器人。VideoMimic 是一种“真实-到-模拟-到-真实”的流程,它挖掘日常视频,联合重建人类和环境,并为执行相应技能的类人机器人生成全身控制策略。在真实的类人机器人上展示该流程的成果,展示稳健、可重复的上下文控制,原创 2025-05-12 01:00:00 · 1030 阅读 · 0 评论 -
多智体具身人工智能:进展与未来方向(下)
25年5月来自北理工、南大、西安交大、浙大和同济大学的论文“Multi-Agent Embodied AI: Advances And Future Directions”。具身人工智能(Embodied AI)在智能时代先进技术的应用中扮演着关键角色。在智能时代,人工智能系统与物理实体相融合,使其能够感知、推理并与环境交互。通过使用传感器输入和执行器执行动作,这些系统能够根据现实世界的反馈进行学习和调整,从而能够在动态且不可预测的环境中有效地执行任务。随着深度学习(DL)、强化学习(RL)和大语言模型(原创 2025-05-11 15:19:49 · 700 阅读 · 0 评论 -
多智体具身人工智能:进展与未来方向(上)
25年5月来自北理工、南大、西安交大、浙大和同济大学的论文“Multi-Agent Embodied AI: Advances And Future Directions”。具身人工智能(Embodied AI)在智能时代先进技术的应用中扮演着关键角色。在智能时代,人工智能系统与物理实体相融合,使其能够感知、推理并与环境交互。通过使用传感器输入和执行器执行动作,这些系统能够根据现实世界的反馈进行学习和调整,从而能够在动态且不可预测的环境中有效地执行任务。随着深度学习(DL)、强化学习(RL)和大语言模型原创 2025-05-11 14:18:13 · 1177 阅读 · 0 评论 -
RoboOS:跨具身和多智体协作的分层具身框架
25年5月来自北京大学和北京智源的论文“RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration”。具身智能的兴起,为下一代工业生态系统带来前所未有的挑战,即需要具备韧性、认知驱动的多智体协作,从而彻底改变自主制造、自适应服务机器人和信息物理融合生产架构的范式。然而,当前的机器人系统面临着诸多限制,例如跨具身适应性有限、任务调度效率低下以及动态纠错能力不足。端到端视觉-语言-动原创 2025-05-08 09:40:39 · 767 阅读 · 0 评论 -
ROBOVERSE:面向可扩展和可泛化机器人学习的统一平台、数据集和基准
25年4月来自UC Berkeley、北大、USC、UMich、UIUC、Stanford、CMU、UCLA 和 北京通用 AI 研究院(BIGAI)的论文“ROBOVERSE: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning”。数据扩展和标准化评估基准,推动了自然语言处理和计算机视觉领域的重大进步。然而,机器人技术在数据扩展和建立可靠的评估协议方面面临着独特的原创 2025-05-07 12:44:43 · 1306 阅读 · 0 评论 -
具身机器人策略学习的泛化方法
机器人技术的一大挑战是打造一个通用机器人,使其能够根据任意用户命令在非结构化环境中执行多种任务。这一努力的关键挑战是泛化:机器人必须应对新环境,识别和操纵从未见过的目标,并理解从未被要求执行的命令意图。从像素进行端到端学习,是建模此类通用机器人行为的灵活选择,因为对世界状态表示的假设很少。有了足够的现实世界数据,这些方法原则上应该能够使机器人在新的任务、物体和场景中进行泛化,而无需手工编码、特定于任务的表示。然而,实现这一目标通常仍然难以实现。原创 2025-05-06 03:06:28 · 1088 阅读 · 0 评论 -
ViTa-Zero:零样本视觉触觉目标 6D 姿态估计
25年4月来自Amazon 公司、Brown 大学和 Northestern 大学的论文“ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation”。目标 6D 姿态估计是机器人技术中的一项关键挑战,尤其对于操作任务而言。虽然先前结合视觉和触觉(视觉触觉)信息的研究已显示出良好的前景,但由于视觉触觉数据有限,这些方法往往难以推广。本文介绍 ViTa-Zero,一个零样本视觉触觉姿态估计框架。关键创新在于利用视觉模型作为其主干,并基于从触觉和本原创 2025-04-29 00:15:00 · 1308 阅读 · 0 评论 -
MANIPTRANS:通过残差学习实现高效的灵巧双手操作迁移
25年3月来自北京通用 AI 国家重点实验室、清华大学和北大的论文“ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning”。人手在交互中起着核心作用,推动着灵巧机器人操作研究的不断深入。数据驱动的具身智能算法需要精确、大规模、类似人类的操作序列,而这通过传统的强化学习或现实世界的遥操作难以实现。为了解决这个问题,引入 MANIPTRANS,一种两阶段方法,用于在模拟中将人类的双手技能有效地原创 2025-04-29 00:15:00 · 955 阅读 · 0 评论 -
ZeroGrasp:零样本形状重建助力机器人抓取
25年4月来自CMU、TRI 和 丰田子公司 Woven 的论文“ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping”。机器人抓取是具身系统的核心能力。许多方法直接基于部分信息输出抓取结果,而没有对场景的几何形状进行建模,导致运动效果不佳甚至发生碰撞。为了解决这些问题,本文引入 ZeroGrasp 框架,可以近乎实时地同时执行 3D 重建和抓取姿势预测。该方法的一个关键洞察是,遮挡推理和目标之间空间关系建模,有助于实现精确原创 2025-04-28 00:15:00 · 1111 阅读 · 0 评论 -
π0.5:带开放世界泛化的视觉-语言-动作模型
25年4月来自具身机器人创业公司 PI 公司的论文“π0.5: a Vision-Language-Action Model with Open-World Generalization”。为了使机器人发挥作用,它们必须在实验室之外的现实世界中执行实际相关的任务。虽然视觉-语言-动作 (VLA) 模型在端到端机器人控制方面已展现出印象深刻的效果,但此类模型在实际应用中的泛化能力仍是一个悬而未决的问题。本文提出一个基于 π0 的演进模型 π0.5,它利用异构任务的协同训练来实现广泛的泛化。π0.5 使用来原创 2025-04-28 00:15:00 · 1324 阅读 · 0 评论 -
模态链:利用视觉-语言模型从多模态人类视频中学习操作程序
25年4月来自谷歌 DeepMind 和斯坦福大学的论文“Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models”。从人类视频中学习执行操作任务,是一种很有前景的机器人教学方法。然而,许多操作任务需要在执行过程中改变控制参数,例如力度,而单靠视觉数据无法捕捉到这些参数。本研究利用传感设备(例如测量人体肌肉活动的臂环和录制声音的麦克风)来捕捉人体操作原创 2025-04-27 00:15:00 · 937 阅读 · 0 评论 -
通过模仿学习实现机器人灵巧操作:综述(下)
25年4月来自天津大学、山东大学、瑞士ETH、南方科技大学、通用 AI 国家重点实验室、爱丁堡大学和中科院自动化所的论文“Dexterous Manipulation through Imitation Learning: A Survey”。灵巧操作是指机械手或多指末端执行器通过精确、协调的手指运动和自适应力调制,熟练地控制、重定位和操纵物体的能力,能够实现类似于人手灵巧性的复杂交互。随着机器人技术和机器学习的最新进展,人们对这些系统在复杂和非结构化环境中运行的需求日益增长。由于灵巧操作的高维度和复杂的原创 2025-04-26 00:15:00 · 943 阅读 · 0 评论 -
通过模仿学习实现机器人灵巧操作:综述(上)
25年4月来自天津大学、山东大学、瑞士ETH、南方科技大学、通用 AI 国家重点实验室、爱丁堡大学和中科院自动化所的论文“Dexterous Manipulation through Imitation Learning: A Survey”。灵巧操作是指机械手或多指末端执行器通过精确、协调的手指运动和自适应力调制,熟练地控制、重定位和操纵物体的能力,能够实现类似于人手灵巧性的复杂交互。随着机器人技术和机器学习的最新进展,人们对这些系统在复杂和非结构化环境中运行的需求日益增长。由于灵巧操作的高维度和复杂原创 2025-04-26 00:15:00 · 1318 阅读 · 0 评论 -
通过面向目标的奖励弥合人与机器人的灵活性差距
24年10月来自纽约大学的论文“Bridging the Human to Robot Dexterity Gap through Object-Oriented Rewards”。直接通过人类视频训练机器人是机器人技术和计算机视觉领域的一个新兴领域。尽管双指机械手在双指夹持器方面取得了显著进展,但以这种方式让多指机械手学习自主任务仍然充满挑战。造成这一困难的一个关键原因是,由于形态差异,在人手上训练的策略可能无法直接迁移到机械手上。本研究提出 HUDOR 技术,它能够通过直接从人类视频中计算奖励来在线原创 2025-04-20 00:15:00 · 754 阅读 · 0 评论 -
PROGRESSOR:具有自监督在线细化的感知引导奖励估计器
24年11月来自芝加哥大学和 TTI 的论文“PROGRESSOR: A Perceptually Guided Reward Estimator with Self-Supervised Online Refinement”。PROGRESSOR,从视频中学习与任务无关的奖励函数,从而能够在无需人工监督的情况下,通过目标条件强化学习(RL)进行策略训练。该奖励的基础是对任务进度分布的估计,该估计是当前、初始和目标观测值的函数,并以自监督的方式学习。至关重要的是,PROGRESSOR 是在线 RL 训练原创 2025-04-20 00:15:00 · 740 阅读 · 0 评论 -
Motion Tracks:少样本模仿学习中人-机器人之间迁移的统一表征
25年1月来自Cornell和Stanford的论文“MOTION TRACKS: A Unified Representation for Human-Robot Transfer in Few-Shot Imitation Learning”。教会机器人自主完成日常任务仍然是一项挑战。模仿学习 (IL) 是一种强大的方法,它通过演示向机器人灌输技能,但受限于收集遥控机器人数据需要耗费大量的人力。人类视频提供一种可扩展的替代方案,但由于缺乏机器人动作标签,直接利用这些视频训练 IL 策略仍然困难重重。原创 2025-04-19 00:15:00 · 1263 阅读 · 0 评论 -
DemoGen:用于数据高效视觉运动策略学习的合成演示生成
25年2月来自清华、上海姚期智研究院和上海AI实验室的论文“DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning”。视觉运动策略在机器人操控中展现出巨大潜力,但通常需要大量人工采集的数据才能有效执行。驱动高数据需求的一个关键因素,是其有限的空间泛化能力,这需要跨不同物体配置收集大量数据。本研究提出 DemoGen,一种低成本、完全合成的自动演示生成方法。DemoGen 每个任务仅原创 2025-04-19 00:15:00 · 811 阅读 · 0 评论 -
OPAL:机器人学习中编码物理系统的因果理解
25年4月来自Apiary Systems的论文“OPAL: Encoding Causal Understanding of Physical Systems for Robot Learning”。OPAL(带语言的操作物理智体),是一种视觉-语言-动作架构,它将拓扑约束引入机器人控制的流匹配中。为此,进一步引入拓扑注意机制。其方法将动作序列建模为具有非平凡约束的拓扑结构化表示。在 10 个复杂操作任务中的实验结果表明,OPAL 的性能优于之前的方法,包括 Octo、OpenVLA 和 π0。原创 2025-04-18 00:15:00 · 1114 阅读 · 0 评论 -
MAPLE:编码从自我为中心的视频中学习的灵巧机器人操作先验
25年3月来自ETH、Mimics Robotic 和微软研究院的论文“MAPLE: Encoding Dexterous Robotic Manipulation Priors Learned From Egocentric Videos”。大规模以自我为中心的视频数据集,捕捉各种场景中的各种人类活动,为人类如何与目标交互提供丰富而详细的洞察,尤其是那些需要细粒度灵巧控制的物体。这种复杂、灵巧的技能和精确的控制,对于许多机器人操作任务也至关重要,但传统的数据驱动机器人操作方法往往无法充分解决。为了弥补原创 2025-04-18 00:15:00 · 933 阅读 · 0 评论 -
人形机器人动作策略 ∼ 人类动作策略
25年3月来自UCSD、CMU、西雅图 UW、MIT 和 Apple 公司的论文“Humanoid Policy ∼ Human Policy”。利用多样化数据训练人形机器人的操作策略,可以增强其在跨任务和平台的鲁棒性和泛化能力。然而,仅从机器人演示中学习需要耗费大量的人力,需要昂贵的远程数据收集,而这些数据难以扩展。本文研究一种更具可扩展性的数据源——以自我为中心的人类演示,将其用作机器人学习的跨具身训练数据。从数据和建模的角度弥合人形机器人与人类之间的就是差距。其收集一个以自我为中心的、面向任务的数原创 2025-04-17 00:15:00 · 1868 阅读 · 0 评论 -
Being-0:具有视觉-语言模型和模块化技能的人形机器人智体
25年3月来自北大、北京智源和 BeingBeyond 的论文“Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills”。构建能够在现实世界具身任务中达到人类水平表现的自主机器人智体,是人形机器人研究的终极目标。近期,基于基础模型 (FM) 的高级认知和人形机器人的低级技能开发取得显著进展。然而,直接组合这些组件通常会导致鲁棒性和效率下降,因为在长周期任务中会出现复合误差,并且不同模块的延迟各不相同原创 2025-04-17 00:15:00 · 1061 阅读 · 0 评论