自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1031)
  • 收藏
  • 关注

原创 视觉-语言导航:综述与类别

22年4月来自国防科大的论文“Vision-Language Navigation: A Survey and Taxonomy”。视觉-语言导航 (VLN) 任务要求智体遵循人类语言指令,在未曾见过的环境中导航。这个充满挑战的领域涉及自然语言处理、计算机视觉、机器人技术等领域,并催生了众多专注于各种 VLN 任务的优秀成果。本文对这些任务进行了全面的综述,并根据这些任务中语言指令的不同特点,对其进行了深入的分类。根据导航指令是一次性给出还是多次给出,本文将任务分为两类:单轮任务和多轮任务。对于单轮任务

2025-05-20 00:15:00 650

原创 视觉-和-语言导航的综述:任务、方法和未来方向

22年6月来自UC Santa Cruz、澳大利亚的阿德莱德大学和 USC 的论文“Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions”。人工智能研究的一个长期目标是构建能够用自然语言与人类交流、感知环境并执行现实世界任务的智体。视觉与语言导航 (VLN) 是实现这一目标的一个基础性跨学科研究课题,并日益受到自然语言处理、计算机视觉、机器人技术和机器学习领域的关注。本文回顾 VLN 这一新兴领

2025-05-20 00:15:00 721

原创 Hugging Face 开发的 LeRobot 框架安装说明

本文档提供了安装 LeRobot 框架的全面说明,该框架是一个基于 PyTorch 的库,用于现实世界机器人领域的最先进 AI。

2025-05-19 00:15:00 488

原创 具身智能时代基于物理模拟器的机器人导航与操控研究

25年5月来自香港城市大学、墨尔本大学和汉堡大学的论文“A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI”。导航和操控是具身智能的核心能力,然而在现实世界中训练具备这些能力的智体却面临着高昂的成本和时间复杂度。因此,模拟-到-现实的迁移已成为一种关键方法,但模拟-到-现实的差距仍然存在。本综述分析被忽视的物理模拟器特性,探讨如何弥补这一差距。还分析它们在导航和

2025-05-19 00:15:00 949

原创 基于模型的重标注学习在任何地方驾驶

25年5月来自UC Berkeley、丰田汽车北美分公司和普林斯顿大学的论文“Learning to Drive Anywhere with Model-Based Reannotation”。开发可泛化的机器人视觉导航策略是一项重大挑战,主要受限于能否获得大规模、多样化的训练数据。虽然研究人员收集的精选数据集质量较高,但其有限的规模限制了策略的泛化。为了克服这一问题,本文探索利用丰富的被动收集数据源,包括大量众包遥操作数据和未标记的 YouTube 视频,尽管这些数据可能质量较低或缺少动作标签。提出的

2025-05-18 00:15:00 804

原创 Hugging Face 开发的 LeRobot 框架介绍

LeRobot 是由 Hugging Face 开发的基于 PyTorch 的现实世界机器人框架。它提供了用于机器人学习的先进模型、数据集和工具,重点关注模仿学习和强化学习方法。

2025-05-18 00:15:00 478

原创 ReinboT:通过强化学习增强机器人视觉-语言操控能力

25年5月来自浙大和西湖大学的论文“ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning”。视觉-语言-动作 (VLA) 模型通过模仿学习在一般机器人决策任务中展现出巨大潜力。然而,训练数据的质量参差不齐通常会限制这些模型的性能。另一方面,离线强化学习 (RL) 擅长从混合质量数据中学习稳健的策略模型。本文介绍强化的机器人 GPT (ReinboT),这是一种端到端 VLA 模型,它集成 RL

2025-05-17 00:15:00 1019

原创 学习以任务为中心的潜动作,随地采取行动

25年5月来自香港大学、OpenDriveLab 和智元机器人的论文“Learning to Act Anywhere with Task-centric Latent Actions”。通用机器人应该在各种环境中高效运行。然而,大多数现有方法严重依赖于扩展动作标注数据来增强其能力。因此,它们通常局限于单一的物理规范,难以学习跨不同具身和环境的可迁移知识。为了突破这些限制,UniVLA,是一个用于学习跨具身视觉-语言-动作 (VLA) 策略的全新框架。关键创新在于利用潜动作模型从视频中获取以任务为中心的

2025-05-17 00:15:00 893

原创 LeRobot 框架的核心架构概念和组件(下)

机器人控制系统是 LeRobot 框架的核心组件,提供用于操作、标定和记录物理机器人数据的接口。该系统支持遥操作、记录演示数据集、重放动作以及在真实机器人上运行已训练的策略。它充当用户、物理机器人硬件和训练流程之间的桥梁。

2025-05-16 00:15:00 1108

原创 Hugging Face 中 LeRobot 使用的入门指南

本页面提供 LeRobot 的快速入门指南,涵盖如何加载数据集、评估预训练策略以及训练您自己的模型。

2025-05-16 00:15:00 709

原创 LeRobot 框架的核心架构概念和组件(上)

LeRobot 采用模块化架构设计,在提供统一的机器人学习接口的同时,也兼具灵活性。该框架的核心由四个主要子系统组成:策略系统 - 实现各种机器人控制学习算法数据集管理 - 处理机器人数据的存储、加载和预处理环境接口 - 提供与模拟环境交互的抽象层机器人控制系统 - 管理机器人物理硬件和控制模式

2025-05-15 00:15:00 940

原创 LeRobot 框架的核心架构概念和组件(中)

环境系统提供与模拟环境交互的统一接口。这些环境允许在部署到物理机器人之前,在受控环境中训练和评估策略。LeRobot 与 Gymnasium(原名 Gym)集成,提供标准化的环境接口。环境创建通过工厂模式处理,从而可以一致地创建不同类型的环境:Aloha:双臂操控环境PushT:桌面推动环境XArm:单臂操控环境

2025-05-15 00:15:00 568

原创 GraspVLA:基于Billion-级合成动作数据预训练的抓取基础模型

25年5月来自银河通用(Galbot)、北大、港大和 BAAI 的论文“GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data”。具身基础模型因其零样本泛化能力、可扩展性以及通过少量后训练即可适应新任务的优势,正日益受到关注。然而,现有模型严重依赖真实世界数据,而这些数据的收集成本高昂且耗费人力。合成数据提供了一种经济高效的替代方案,但其潜力仍未被充分开发。为了弥补这一不足,本文探索

2025-05-14 00:15:00 946

原创 RobotxR1:通过闭环强化学习在大语言模型上实现具身机器人智能

25年5月来自瑞士 ETH 的论文“RobotxR1: Enabling Embodied Robotic Intelligence on Large Language Models through Closed-Loop Reinforcement Learning”。未来在现实环境中运行的机器人系统将需要机载具身智能,而无需持续的云连接,从而在功能与计算能力和内存限制之间取得平衡。这项工作提出 R1-zero 方法的扩展,该方法支持在机器人领域使用低参数计数大语言模型 (LLM)。R1-Zero 方

2025-05-14 00:15:00 1374 1

原创 视觉-语言-动作模型:概念、进展、应用与挑战(上)

25年5月来自 Cornell 大学、香港科大和希腊 U Peloponnese 的论文“Vision-Language-Action Models: Concepts, Progress, Applications and Challenges”。视觉-语言-动作 (VLA) 模型标志着人工智能的变革性进步,旨在将感知、自然语言理解和具体动作统一在一个计算框架内。这篇基础综述全面总结视觉-语言-动作模型的最新进展,并系统地涵盖构成这一快速发展领域格局的五大主题支柱。首先建立 VLA 系统的概念基础,追

2025-05-13 00:15:00 1029

原创 视觉-语言-动作模型:概念、进展、应用与挑战(下)

25年5月来自 Cornell 大学、香港科大和希腊 U Peloponnese 的论文“Vision-Language-Action Models: Concepts, Progress, Applications and Challenges”。视觉-语言-动作 (VLA) 模型标志着人工智能的变革性进步,旨在将感知、自然语言理解和具体动作统一在一个计算框架内。这篇基础综述全面总结视觉-语言-动作模型的最新进展,并系统地涵盖构成这一快速发展领域格局的五大主题支柱。

2025-05-13 00:15:00 1405

原创 机器人操作的扩散模型:综述

25年4月来自德国 KIT 的论文“DIFFUSION MODELS FOR ROBOTIC MANIPULATION: A SURVEY”。扩散生成模型在图像和视频生成等视觉领域取得了显著成功。近年来,它们在机器人技术领域,尤其是在机器人操控领域,也逐渐成为一种颇具前景的方法。扩散模型利用概率框架,并以其对多模态分布的建模能力以及对高维输入和输出空间的鲁棒性而脱颖而出。本综述全面回顾机器人操控领域中最先进的扩散模型,包括抓取学习、轨迹规划和数据增强。用于场景和图像增强的扩散模型,处于机器人技术和计算机

2025-05-12 03:00:00 799

原创 VideoMimic:视觉模仿实现上下文人形机器人控制

25年5月来自UC Berkeley 的论文“Visual Imitation Enables Contextual Humanoid Control”。如何教会类人机器人利用周围环境上下文爬楼梯和坐在椅子上?或许最简单的方法就是直接展示——随意捕捉一段人体运动视频,然后将其输入给类人机器人。VideoMimic 是一种“真实-到-模拟-到-真实”的流程,它挖掘日常视频,联合重建人类和环境,并为执行相应技能的类人机器人生成全身控制策略。在真实的类人机器人上展示该流程的成果,展示稳健、可重复的上下文控制,

2025-05-12 01:00:00 1029

原创 多智体具身人工智能:进展与未来方向(下)

25年5月来自北理工、南大、西安交大、浙大和同济大学的论文“Multi-Agent Embodied AI: Advances And Future Directions”。具身人工智能(Embodied AI)在智能时代先进技术的应用中扮演着关键角色。在智能时代,人工智能系统与物理实体相融合,使其能够感知、推理并与环境交互。通过使用传感器输入和执行器执行动作,这些系统能够根据现实世界的反馈进行学习和调整,从而能够在动态且不可预测的环境中有效地执行任务。随着深度学习(DL)、强化学习(RL)和大语言模型(

2025-05-11 15:19:49 697

原创 多智体具身人工智能:进展与未来方向(上)

25年5月来自北理工、南大、西安交大、浙大和同济大学的论文“Multi-Agent Embodied AI: Advances And Future Directions”。具身人工智能(Embodied AI)在智能时代先进技术的应用中扮演着关键角色。在智能时代,人工智能系统与物理实体相融合,使其能够感知、推理并与环境交互。通过使用传感器输入和执行器执行动作,这些系统能够根据现实世界的反馈进行学习和调整,从而能够在动态且不可预测的环境中有效地执行任务。随着深度学习(DL)、强化学习(RL)和大语言模型

2025-05-11 14:18:13 1170

原创 RoboOS:跨具身和多智体协作的分层具身框架

25年5月来自北京大学和北京智源的论文“RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration”。具身智能的兴起,为下一代工业生态系统带来前所未有的挑战,即需要具备韧性、认知驱动的多智体协作,从而彻底改变自主制造、自适应服务机器人和信息物理融合生产架构的范式。然而,当前的机器人系统面临着诸多限制,例如跨具身适应性有限、任务调度效率低下以及动态纠错能力不足。端到端视觉-语言-动

2025-05-08 09:40:39 767

原创 ROBOVERSE:面向可扩展和可泛化机器人学习的统一平台、数据集和基准

25年4月来自UC Berkeley、北大、USC、UMich、UIUC、Stanford、CMU、UCLA 和 北京通用 AI 研究院(BIGAI)的论文“ROBOVERSE: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning”。数据扩展和标准化评估基准,推动了自然语言处理和计算机视觉领域的重大进步。然而,机器人技术在数据扩展和建立可靠的评估协议方面面临着独特的

2025-05-07 12:44:43 1300

原创 具身机器人策略学习的泛化方法

机器人技术的一大挑战是打造一个通用机器人,使其能够根据任意用户命令在非结构化环境中执行多种任务。这一努力的关键挑战是泛化:机器人必须应对新环境,识别和操纵从未见过的目标,并理解从未被要求执行的命令意图。从像素进行端到端学习,是建模此类通用机器人行为的灵活选择,因为对世界状态表示的假设很少。有了足够的现实世界数据,这些方法原则上应该能够使机器人在新的任务、物体和场景中进行泛化,而无需手工编码、特定于任务的表示。然而,实现这一目标通常仍然难以实现。

2025-05-06 03:06:28 1082

原创 HiP-AD:用于单解码器自动驾驶的可变形注意分层多粒度规划

25年3月来自 Nullmax 自动驾驶公司的论文“HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder”。尽管端到端自动驾驶 (E2E-AD) 技术近年来取得了显著进展,但在闭环评估方面的表现仍然不尽人意。在查询设计和交互中利用规划的潜力尚未得到充分挖掘。本文介绍一种多粒度规划查询表示,它集成异构航路点,包括跨各种采

2025-05-04 00:15:00 771

原创 LMPOcc:利用历史遍历的长期记忆先验进行 3D 语义占用预测

25年4月来自复旦和重庆长安汽车公司的论文“LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals”。基于视觉的 3D 语义占用预测对于自动驾驶至关重要,可实现静态基础设施和动态代理的统一建模。实际上,自动驾驶汽车可能会在不同的环境条件下(例如天气波动和光照变化)重复穿越相同的地理位置。现有的 3D 占用预测方法主要整合相邻的时间上下文。然而,这些研究忽略利用

2025-05-04 00:15:00 786

原创 开源大模型新标杆!Moxin-7B:从预训练到强化学习,全面透明的AI革新

Moxin 7B,这是一款完全开源的 LLM,它遵循模型开放框架 (MOF) 开发。MOF 是一个基于模型完备性和开放性评估 AI 模型的分级分类系统,秉承开放科学、开源、开放数据和开放访问的原则。我们的模型通过全面发布预训练代码和配置、训练和微调数据集以及中间和最终检查点,达到了 MOF 分类的最高级别“开放科学”,旨在持续致力于完全开源 LLM。预训练成本约为 16 万美元。在预训练获得基础模型后,我们使用 SOTA 训练后框架和指导数据对 Moxin Base 模型进行微调,以获得 Moxin Ins

2025-05-01 08:34:17 1325

原创 LLM 对齐技术综述:RLHF、RLAIF、PPO 和 DPO 等

24年7月来自 Salesforce 的论文"A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and more"。随着自监督学习的进步、预训练语料库中数万亿个 token 的出现、指令微调以及拥有数十亿参数的大型 Transformer 的开发,大语言模型 (LLM) 现已能够对人类查询生成真实且连贯的响应。然而,训练数据的质量参差不齐可能会导致生成不理想的响应,从而带来重大挑战。在过去的两年中,人们从不

2025-05-01 00:15:00 1111

原创 基于视觉的自动驾驶 3D 占据预测:回顾与展望

24年5月来自北航大学的论文“Vision-based 3D occupancy prediction in autonomous driving: a review and outlook”。近年来,自动驾驶因其在减轻驾驶员负担和提高驾驶安全性方面的潜力而受到越来越多的关注。基于视觉的 3D 占据预测是根据图像输入预测自动驾驶汽车周围 3D 体素网格的空间占据状态和语义,是一项新兴的感知任务,适用于经济高效的自动驾驶感知系统。本文首先介绍基于视觉的 3D 占据预测的背景并讨论该任务中的挑战。其次,从特

2025-04-30 00:49:47 1069

原创 高效 Transformer 的综述

20年9月来自谷歌研究的论文“Efficient Transformers: A Survey”。文章主要针对一类X-former模型,例如Reformer, Linformer, Performer, Longformer为例,这些对原版Transformer做了改进,提高了其计算和内存的效率。

2025-04-30 00:15:00 616

原创 MANIPTRANS:通过残差学习实现高效的灵巧双手操作迁移

25年3月来自北京通用 AI 国家重点实验室、清华大学和北大的论文“ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning”。人手在交互中起着核心作用,推动着灵巧机器人操作研究的不断深入。数据驱动的具身智能算法需要精确、大规模、类似人类的操作序列,而这通过传统的强化学习或现实世界的遥操作难以实现。为了解决这个问题,引入 MANIPTRANS,一种两阶段方法,用于在模拟中将人类的双手技能有效地

2025-04-29 00:15:00 954

原创 ViTa-Zero:零样本视觉触觉目标 6D 姿态估计

25年4月来自Amazon 公司、Brown 大学和 Northestern 大学的论文“ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation”。目标 6D 姿态估计是机器人技术中的一项关键挑战,尤其对于操作任务而言。虽然先前结合视觉和触觉(视觉触觉)信息的研究已显示出良好的前景,但由于视觉触觉数据有限,这些方法往往难以推广。本文介绍 ViTa-Zero,一个零样本视觉触觉姿态估计框架。关键创新在于利用视觉模型作为其主干,并基于从触觉和本

2025-04-29 00:15:00 1305

原创 π0.5:带开放世界泛化的视觉-语言-动作模型

25年4月来自具身机器人创业公司 PI 公司的论文“π0.5: a Vision-Language-Action Model with Open-World Generalization”。为了使机器人发挥作用,它们必须在实验室之外的现实世界中执行实际相关的任务。虽然视觉-语言-动作 (VLA) 模型在端到端机器人控制方面已展现出印象深刻的效果,但此类模型在实际应用中的泛化能力仍是一个悬而未决的问题。本文提出一个基于 π0 的演进模型 π0.5,它利用异构任务的协同训练来实现广泛的泛化。π0.5 使用来

2025-04-28 00:15:00 1321

原创 ZeroGrasp:零样本形状重建助力机器人抓取

25年4月来自CMU、TRI 和 丰田子公司 Woven 的论文“ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping”。机器人抓取是具身系统的核心能力。许多方法直接基于部分信息输出抓取结果,而没有对场景的几何形状进行建模,导致运动效果不佳甚至发生碰撞。为了解决这些问题,本文引入 ZeroGrasp 框架,可以近乎实时地同时执行 3D 重建和抓取姿势预测。该方法的一个关键洞察是,遮挡推理和目标之间空间关系建模,有助于实现精确

2025-04-28 00:15:00 1109

原创 模态链:利用视觉-语言模型从多模态人类视频中学习操作程序

25年4月来自谷歌 DeepMind 和斯坦福大学的论文“Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models”。从人类视频中学习执行操作任务,是一种很有前景的机器人教学方法。然而,许多操作任务需要在执行过程中改变控制参数,例如力度,而单靠视觉数据无法捕捉到这些参数。本研究利用传感设备(例如测量人体肌肉活动的臂环和录制声音的麦克风)来捕捉人体操作

2025-04-27 00:15:00 935

原创 端到端自动驾驶的数据规模化定律

25年4月来自Nvidia、多伦多大学、NYU和斯坦福大学的论文“Data Scaling Laws for End-to-End Autonomous Driving”。自动驾驶汽车 (AV) 栈传统上依赖于分解方法,使用单独的模块处理感知、预测和规划。然而,这种设计在模块间通信期间会引入信息丢失,增加计算开销,并可能导致复合错误。为了应对这些挑战,最近的研究提出将所有组件集成到端到端可微分模型中的架构,从而实现整体系统优化。这种转变强调数据工程而不是软件集成,只需扩大训练资源规模即可提供提高系统性能

2025-04-27 00:15:00 1896

原创 通过模仿学习实现机器人灵巧操作:综述(上)

25年4月来自天津大学、山东大学、瑞士ETH、南方科技大学、通用 AI 国家重点实验室、爱丁堡大学和中科院自动化所的论文“Dexterous Manipulation through Imitation Learning: A Survey”。灵巧操作是指机械手或多指末端执行器通过精确、协调的手指运动和自适应力调制,熟练地控制、重定位和操纵物体的能力,能够实现类似于人手灵巧性的复杂交互。随着机器人技术和机器学习的最新进展,人们对这些系统在复杂和非结构化环境中运行的需求日益增长。由于灵巧操作的高维度和复杂

2025-04-26 00:15:00 1316

原创 通过模仿学习实现机器人灵巧操作:综述(下)

25年4月来自天津大学、山东大学、瑞士ETH、南方科技大学、通用 AI 国家重点实验室、爱丁堡大学和中科院自动化所的论文“Dexterous Manipulation through Imitation Learning: A Survey”。灵巧操作是指机械手或多指末端执行器通过精确、协调的手指运动和自适应力调制,熟练地控制、重定位和操纵物体的能力,能够实现类似于人手灵巧性的复杂交互。随着机器人技术和机器学习的最新进展,人们对这些系统在复杂和非结构化环境中运行的需求日益增长。由于灵巧操作的高维度和复杂的

2025-04-26 00:15:00 942

原创 机器人操作中的生成式 AI:综述(上)

25年3月来自香港大学、香港理工、香港科大、浙大和清华大学的论文“Generative Artificial Intelligence in Robotic Manipulation: A Survey”。本综述全面回顾机器人操作领域生成学习模型的最新进展,并探讨该领域的关键挑战。机器人操作面临着关键瓶颈,包括数据不足和数据采集效率低下、长期和复杂任务规划,以及在不同环境下实现稳健策略学习性能所需的多模态推理能力等重大挑战。

2025-04-25 00:15:00 1834 1

原创 机器人操作中的生成式 AI:综述(下)

25年3月来自香港大学、香港理工、香港科大、浙大和清华大学的论文“Generative Artificial Intelligence in Robotic Manipulation: A Survey”。本综述全面回顾机器人操作领域生成学习模型的最新进展,并探讨该领域的关键挑战。机器人操作面临着关键瓶颈,包括数据不足和数据采集效率低下、长期和复杂任务规划,以及在不同环境下实现稳健策略学习性能所需的多模态推理能力等重大挑战。为了应对这些挑战,本综述介绍几种生成模型范式,包括生成对抗网络 (GAN)、变分自

2025-04-25 00:15:00 1308

原创 UniOcc:自动驾驶占用预测和预报的统一基准

25年3月来自 UC Riverside、U Wisconsin 和 TAMU 的论文"UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving"。UniOcc 是一个全面统一的占用预测基准(即基于历史信息预测未来占用)和基于摄像头图像的当前帧占用预测。UniOcc 整合来自多个真实数据集(例如 nuScenes、Waymo)和高保真驾驶模拟器(例如 CARLA、OpenCOOD)

2025-04-24 00:15:00 990

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除