自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1004)
  • 收藏
  • 关注

原创 基于视觉的自动驾驶 3D 占据预测:回顾与展望

24年5月来自北航大学的论文“Vision-based 3D occupancy prediction in autonomous driving: a review and outlook”。近年来,自动驾驶因其在减轻驾驶员负担和提高驾驶安全性方面的潜力而受到越来越多的关注。基于视觉的 3D 占据预测是根据图像输入预测自动驾驶汽车周围 3D 体素网格的空间占据状态和语义,是一项新兴的感知任务,适用于经济高效的自动驾驶感知系统。本文首先介绍基于视觉的 3D 占据预测的背景并讨论该任务中的挑战。其次,从特

2025-04-30 00:49:47 675

原创 高效 Transformer 的综述

20年9月来自谷歌研究的论文“Efficient Transformers: A Survey”。文章主要针对一类X-former模型,例如Reformer, Linformer, Performer, Longformer为例,这些对原版Transformer做了改进,提高了其计算和内存的效率。

2025-04-30 00:15:00 377

原创 MANIPTRANS:通过残差学习实现高效的灵巧双手操作迁移

25年3月来自北京通用 AI 国家重点实验室、清华大学和北大的论文“ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning”。人手在交互中起着核心作用,推动着灵巧机器人操作研究的不断深入。数据驱动的具身智能算法需要精确、大规模、类似人类的操作序列,而这通过传统的强化学习或现实世界的遥操作难以实现。为了解决这个问题,引入 MANIPTRANS,一种两阶段方法,用于在模拟中将人类的双手技能有效地

2025-04-29 00:15:00 563

原创 ViTa-Zero:零样本视觉触觉目标 6D 姿态估计

25年4月来自Amazon 公司、Brown 大学和 Northestern 大学的论文“ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation”。目标 6D 姿态估计是机器人技术中的一项关键挑战,尤其对于操作任务而言。虽然先前结合视觉和触觉(视觉触觉)信息的研究已显示出良好的前景,但由于视觉触觉数据有限,这些方法往往难以推广。本文介绍 ViTa-Zero,一个零样本视觉触觉姿态估计框架。关键创新在于利用视觉模型作为其主干,并基于从触觉和本

2025-04-29 00:15:00 1031

原创 π0.5:带开放世界泛化的视觉-语言-动作模型

25年4月来自具身机器人创业公司 PI 公司的论文“π0.5: a Vision-Language-Action Model with Open-World Generalization”。为了使机器人发挥作用,它们必须在实验室之外的现实世界中执行实际相关的任务。虽然视觉-语言-动作 (VLA) 模型在端到端机器人控制方面已展现出印象深刻的效果,但此类模型在实际应用中的泛化能力仍是一个悬而未决的问题。本文提出一个基于 π0 的演进模型 π0.5,它利用异构任务的协同训练来实现广泛的泛化。π0.5 使用来

2025-04-28 00:15:00 1228

原创 ZeroGrasp:零样本形状重建助力机器人抓取

25年4月来自CMU、TRI 和 丰田子公司 Woven 的论文“ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping”。机器人抓取是具身系统的核心能力。许多方法直接基于部分信息输出抓取结果,而没有对场景的几何形状进行建模,导致运动效果不佳甚至发生碰撞。为了解决这些问题,本文引入 ZeroGrasp 框架,可以近乎实时地同时执行 3D 重建和抓取姿势预测。该方法的一个关键洞察是,遮挡推理和目标之间空间关系建模,有助于实现精确

2025-04-28 00:15:00 1057

原创 模态链:利用视觉-语言模型从多模态人类视频中学习操作程序

25年4月来自谷歌 DeepMind 和斯坦福大学的论文“Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models”。从人类视频中学习执行操作任务,是一种很有前景的机器人教学方法。然而,许多操作任务需要在执行过程中改变控制参数,例如力度,而单靠视觉数据无法捕捉到这些参数。本研究利用传感设备(例如测量人体肌肉活动的臂环和录制声音的麦克风)来捕捉人体操作

2025-04-27 00:15:00 852

原创 端到端自动驾驶的数据规模化定律

25年4月来自Nvidia、多伦多大学、NYU和斯坦福大学的论文“Data Scaling Laws for End-to-End Autonomous Driving”。自动驾驶汽车 (AV) 栈传统上依赖于分解方法,使用单独的模块处理感知、预测和规划。然而,这种设计在模块间通信期间会引入信息丢失,增加计算开销,并可能导致复合错误。为了应对这些挑战,最近的研究提出将所有组件集成到端到端可微分模型中的架构,从而实现整体系统优化。这种转变强调数据工程而不是软件集成,只需扩大训练资源规模即可提供提高系统性能

2025-04-27 00:15:00 1847

原创 通过模仿学习实现机器人灵巧操作:综述(上)

25年4月来自天津大学、山东大学、瑞士ETH、南方科技大学、通用 AI 国家重点实验室、爱丁堡大学和中科院自动化所的论文“Dexterous Manipulation through Imitation Learning: A Survey”。灵巧操作是指机械手或多指末端执行器通过精确、协调的手指运动和自适应力调制,熟练地控制、重定位和操纵物体的能力,能够实现类似于人手灵巧性的复杂交互。随着机器人技术和机器学习的最新进展,人们对这些系统在复杂和非结构化环境中运行的需求日益增长。由于灵巧操作的高维度和复杂

2025-04-26 00:15:00 1203

原创 通过模仿学习实现机器人灵巧操作:综述(下)

25年4月来自天津大学、山东大学、瑞士ETH、南方科技大学、通用 AI 国家重点实验室、爱丁堡大学和中科院自动化所的论文“Dexterous Manipulation through Imitation Learning: A Survey”。灵巧操作是指机械手或多指末端执行器通过精确、协调的手指运动和自适应力调制,熟练地控制、重定位和操纵物体的能力,能够实现类似于人手灵巧性的复杂交互。随着机器人技术和机器学习的最新进展,人们对这些系统在复杂和非结构化环境中运行的需求日益增长。由于灵巧操作的高维度和复杂的

2025-04-26 00:15:00 817

原创 机器人操作中的生成式 AI:综述(上)

25年3月来自香港大学、香港理工、香港科大、浙大和清华大学的论文“Generative Artificial Intelligence in Robotic Manipulation: A Survey”。本综述全面回顾机器人操作领域生成学习模型的最新进展,并探讨该领域的关键挑战。机器人操作面临着关键瓶颈,包括数据不足和数据采集效率低下、长期和复杂任务规划,以及在不同环境下实现稳健策略学习性能所需的多模态推理能力等重大挑战。

2025-04-25 00:15:00 1765 1

原创 机器人操作中的生成式 AI:综述(下)

25年3月来自香港大学、香港理工、香港科大、浙大和清华大学的论文“Generative Artificial Intelligence in Robotic Manipulation: A Survey”。本综述全面回顾机器人操作领域生成学习模型的最新进展,并探讨该领域的关键挑战。机器人操作面临着关键瓶颈,包括数据不足和数据采集效率低下、长期和复杂任务规划,以及在不同环境下实现稳健策略学习性能所需的多模态推理能力等重大挑战。为了应对这些挑战,本综述介绍几种生成模型范式,包括生成对抗网络 (GAN)、变分自

2025-04-25 00:15:00 1234

原创 UniOcc:自动驾驶占用预测和预报的统一基准

25年3月来自 UC Riverside、U Wisconsin 和 TAMU 的论文"UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving"。UniOcc 是一个全面统一的占用预测基准(即基于历史信息预测未来占用)和基于摄像头图像的当前帧占用预测。UniOcc 整合来自多个真实数据集(例如 nuScenes、Waymo)和高保真驾驶模拟器(例如 CARLA、OpenCOOD)

2025-04-24 00:15:00 958

原创 ChatBEV:一种理解 BEV 地图的可视化语言模型

25年3月来自上海交大、上海AI实验室、同济大学和MAGIC的论文“ChatBEV: A Visual Language Model that Understands BEV Maps”。交通场景理解对于智能交通系统和自动驾驶至关重要,可确保车辆安全高效地运行。虽然 VLM 的最新进展已显示出整体场景理解的前景,但 VLM 在交通场景中的应用(尤其是使用 BEV 地图)仍未得到充分探索。现有方法通常受任务设计和数据量限制的影响,从而阻碍全面的场景理解。为了应对这些挑战,推出 ChatBEV-QA,这是一

2025-04-24 00:15:00 1275

原创 Scenario Dreamer:用于生成驾驶模拟环境的矢量化潜扩散模型

25年3月来自加拿大 Mila AI研究院、蒙特利尔大学、蒙特利尔理工、普林斯顿、加拿大 CIFAR AI Chair 计划和 Torc 机器人公司的论文“Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments”。Scenario Dreamer,是一个完全数据驱动的自动驾驶汽车规划生成模拟器,它可以生成初始交通场景(包括车道图和智体边框)和闭环智体行为。现有的生成驾驶模拟环

2025-04-23 00:15:00 997

原创 测试-时间规模化定律可以改进世界基础模型吗?

25年3月来自 UT Austin、UW Madison 和 Nvidia 的论文“Can Test-Time Scaling Improve World Foundation Model?”。世界基础模型(WFM)通过根据当前的观察和输入预测未来状态来模拟物理世界,已成为许多物理智能(PI)应用的核心,包括自动驾驶和机器人技术。然而,这些模型需要大量的计算资源进行预训练,并且在训练后受到可用数据的限制。因此,在测试-时规模化计算量成为传统模型扩大或重训练的关键且实用的替代方案。本文介绍 SWIFT,一

2025-04-23 00:15:00 1048

原创 ORION:通过视觉-语言指令动作生成的一个整体端到端自动驾驶框架

25年3月来自华中科技和小米电动汽车的论文“ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation”。由于因果推理能力有限,端到端 (E2E) 自动驾驶方法仍然难以在交互式闭环评估中做出正确决策。当前的方法试图利用视觉-语言模型 (VLM) 强大的理解和推理能力来解决这一难题。然而,由于语义推理空间和动作空间中纯数值轨迹输出之间的差距,很少有用于 E

2025-04-22 00:15:00 1125

原创 GAIA-2:用于自动驾驶的可控多视图生成世界模型

25年3月来自英国创业公司 Wayze 的论文“GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving”。(注:23年9月其发布GAIA-1)生成模型为模拟复杂环境提供一种可扩展且灵活的范例,但目前的方法不足以满足自动驾驶领域特定要求,例如多智体交互、细粒度控制和多摄像头一致性。其推出 GAIA-2(自主生成人工智能),这是一个潜扩散世界模型,将这些功能统一在一个生成框架中。GAIA-2 支持以丰富的

2025-04-22 00:15:00 1313

原创 DriveGen:面向无限多样化交通场景的大模型

25年3月来自上海交大和重庆长安汽车公司的论文“DriveGen: Towards Infinite Diverse Traffic Scenarios with Large Models”。微观交通模拟已成为自动驾驶训练和测试的重要工具。尽管近期数据驱动的方法推进逼真行为的生成,但它们的学习仍然主要依赖于单一的真实世界数据集,这限制其多样性,从而阻碍下游算法的优化。本文提出 DriveGen,一个交通模拟框架,它拥有大模型,可以生成更多样化的交通数据,并支持进一步的定制化设计。​​DriveGen 包

2025-04-21 00:15:00 836

原创 CoT-Drive:利用 LLM 和思维链提示实现自动驾驶的高效运动预测

25年3月来自澳门大学和 MIT 的论文“CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting”。准确的运动预测对于安全的自动驾驶 (AD) 至关重要。本研究提出 CoT-Drive,这是一种利用大语言模型 (LLM) 和思维链 (CoT) 提示方法来增强运动预测的创新方法。本文引入一种师生知识蒸馏策略,将 LLM 的高级场景理解能力有效地迁移到轻量级

2025-04-21 00:15:00 1163

原创 PROGRESSOR:具有自监督在线细化的感知引导奖励估计器

24年11月来自芝加哥大学和 TTI 的论文“PROGRESSOR: A Perceptually Guided Reward Estimator with Self-Supervised Online Refinement”。PROGRESSOR,从视频中学习与任务无关的奖励函数,从而能够在无需人工监督的情况下,通过目标条件强化学习(RL)进行策略训练。该奖励的基础是对任务进度分布的估计,该估计是当前、初始和目标观测值的函数,并以自监督的方式学习。至关重要的是,PROGRESSOR 是在线 RL 训练

2025-04-20 00:15:00 706

原创 通过面向目标的奖励弥合人与机器人的灵活性差距

24年10月来自纽约大学的论文“Bridging the Human to Robot Dexterity Gap through Object-Oriented Rewards”。直接通过人类视频训练机器人是机器人技术和计算机视觉领域的一个新兴领域。尽管双指机械手在双指夹持器方面取得了显著进展,但以这种方式让多指机械手学习自主任务仍然充满挑战。造成这一困难的一个关键原因是,由于形态差异,在人手上训练的策略可能无法直接迁移到机械手上。本研究提出 HUDOR 技术,它能够通过直接从人类视频中计算奖励来在线

2025-04-20 00:15:00 735

原创 DemoGen:用于数据高效视觉运动策略学习的合成演示生成

25年2月来自清华、上海姚期智研究院和上海AI实验室的论文“DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning”。视觉运动策略在机器人操控中展现出巨大潜力,但通常需要大量人工采集的数据才能有效执行。驱动高数据需求的一个关键因素,是其有限的空间泛化能力,这需要跨不同物体配置收集大量数据。本研究提出 DemoGen,一种低成本、完全合成的自动演示生成方法。DemoGen 每个任务仅

2025-04-19 00:15:00 778

原创 Motion Tracks:少样本模仿学习中人-机器人之间迁移的统一表征

25年1月来自Cornell和Stanford的论文“MOTION TRACKS: A Unified Representation for Human-Robot Transfer in Few-Shot Imitation Learning”。教会机器人自主完成日常任务仍然是一项挑战。模仿学习 (IL) 是一种强大的方法,它通过演示向机器人灌输技能,但受限于收集遥控机器人数据需要耗费大量的人力。人类视频提供一种可扩展的替代方案,但由于缺乏机器人动作标签,直接利用这些视频训练 IL 策略仍然困难重重。

2025-04-19 00:15:00 1252

原创 MAPLE:编码从自我为中心的视频中学习的灵巧机器人操作先验

25年3月来自ETH、Mimics Robotic 和微软研究院的论文“MAPLE: Encoding Dexterous Robotic Manipulation Priors Learned From Egocentric Videos”。大规模以自我为中心的视频数据集,捕捉各种场景中的各种人类活动,为人类如何与目标交互提供丰富而详细的洞察,尤其是那些需要细粒度灵巧控制的物体。这种复杂、灵巧的技能和精确的控制,对于许多机器人操作任务也至关重要,但传统的数据驱动机器人操作方法往往无法充分解决。为了弥补

2025-04-18 00:15:00 903

原创 OPAL:机器人学习中编码物理系统的因果理解

25年4月来自Apiary Systems的论文“OPAL: Encoding Causal Understanding of Physical Systems for Robot Learning”。OPAL(带语言的操作物理智体),是一种视觉-语言-动作架构,它将拓扑约束引入机器人控制的流匹配中。为此,进一步引入拓扑注意机制。其方法将动作序列建模为具有非平凡约束的拓扑结构化表示。在 10 个复杂操作任务中的实验结果表明,OPAL 的性能优于之前的方法,包括 Octo、OpenVLA 和 π0。

2025-04-18 00:15:00 1098

原创 Being-0:具有视觉-语言模型和模块化技能的人形机器人智体

25年3月来自北大、北京智源和 BeingBeyond 的论文“Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills”。构建能够在现实世界具身任务中达到人类水平表现的自主机器人智体,是人形机器人研究的终极目标。近期,基于基础模型 (FM) 的高级认知和人形机器人的低级技能开发取得显著进展。然而,直接组合这些组件通常会导致鲁棒性和效率下降,因为在长周期任务中会出现复合误差,并且不同模块的延迟各不相同

2025-04-17 00:15:00 1038

原创 人形机器人动作策略 ∼ 人类动作策略

25年3月来自UCSD、CMU、西雅图 UW、MIT 和 Apple 公司的论文“Humanoid Policy ∼ Human Policy”。利用多样化数据训练人形机器人的操作策略,可以增强其在跨任务和平台的鲁棒性和泛化能力。然而,仅从机器人演示中学习需要耗费大量的人力,需要昂贵的远程数据收集,而这些数据难以扩展。本文研究一种更具可扩展性的数据源——以自我为中心的人类演示,将其用作机器人学习的跨具身训练数据。从数据和建模的角度弥合人形机器人与人类之间的就是差距。其收集一个以自我为中心的、面向任务的数

2025-04-17 00:15:00 1838

原创 FP3:机器人操作的3D基础策略

25年3月来自清华大学、上海 AI 实验室、上海姚期智研究院和 UCSD 的论文“FP3: A 3D Foundation Policy for Robotic Manipulation”。继自然语言处理和计算机视觉领域取得成功后,在大规模多任务数据集上预训练的基础模型,在机器人领域也展现出巨大潜力。然而,现有的大多数机器人基础模型,仅仅依赖于二维图像观测,而忽略三维几何信息,而这些信息对于机器人感知和推理三维世界至关重要。本文的 FP3,是一个用于机器人操作的大规模三维基础策略模型。FP3 基于可扩展

2025-04-16 00:15:00 1094

原创 通过人类和机器人演示进行联合逆向和正向动力学的机器人训练

25年3月来自哥伦比亚大学的论文“Train Robots in a JIF: Joint Inverse and Forward Dynamics with Human and Robot Demonstrations”。在大型机器人演示数据集上进行预训练是学习各种操作技能的强大技术,但通常受到收集以机器人为中心数据的高成本和复杂性限制,特别是对于需要触觉反馈的任务。这项工作引入一种使用多模态人类演示进行预训练的新方法来应对这些挑战。该方法联合学习逆动力学和正向动力学来提取潜状态表征,学习特定操作的表

2025-04-16 00:15:00 1792

原创 TLA:用于接触-丰富操作的触觉-语言-动作模型

25年3月来自三星中国研发中心、中科院自动化所和北京智源的论文“TLA: Tactile-Language-Action Model for Contact-Rich Manipulation”。视觉-语言模型已取得显著进展。然而,在语言条件下进行机器人操作以应对接触-密集型任务方面,仍未得到充分探索,尤其是在触觉感知方面。触觉-语言-动作 (TLA) 模型,通过跨模态语言基础有效地处理连续触觉反馈,从而能够在接触-密集型场景中实现稳健的策略生成。此外,构建一个包含 24000 对触觉动作指令数据的综合

2025-04-15 00:15:00 1549

原创 EMMOE:开放环境中具身移动操控的综合基准

25年3月来自浙大、UIUC 和西雅图华盛顿大学的论文“EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments”。开发由自然语言控制的自主家用机器人一直是人类的追求。虽然大语言模型 (LLM) 和具身智能的进步使这一目标更近了一步,但仍存在一些挑战:缺乏针对更复杂机器人任务的统一基准、评估方法,以及指标有限、LLM 和移动操控轨迹之间的数据不兼容。为了解决这些问题,引入开放环境中的具身移

2025-04-15 00:15:00 1552

原创 VidBot:从野外 2D 人体视频中学习可泛化的 3D 动作,实现零样本机器人操控

25年3月来自慕尼黑工大、瑞士 ETH 和微软的论文“VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation”。未来的机器人被设想为能够执行各种家务的多功能系统。最大的问题仍然是,如何在尽量减少机器人物理学习的同时弥合具身之间的差距,因为物理学习从根本上来说扩展性不强。从自然人类视频中学习,为机器人操作任务提供了一个有前途的解决方案,因为互联

2025-04-14 00:15:00 1146

原创 RoboCopilot:机器人操作的人-在-环交互模仿学习

25年3月来自伯克利分校的论文“RoboCopilot: Human-in-the-loop Interactive Imitation Learning for Robot Manipulation”。从人类示范中学习,是学习复杂操作技能的有效方法。然而,现有的方法主要侧重于从被动的人类示范数据中学习,因为其数据收集简单。交互式人类教学具有吸引人的理论和实践特性,但现有的人机界面并没有很好地支持。本文提出了一种系统,可以在双手操作任务中实现人机控制和自主策略之间的无缝切换,从而更有效地学习新任务。这是

2025-04-14 00:15:00 1165

原创 从 LLM 到动作:潜代码作为分层机器人控制的桥梁

24年7月来自伯克利分校和 Meta 公司的论文“From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control”。长期以来,机器人的分层控制一直受到一个困扰:需要一个定义明确的接口层,以便在高级任务规划器和低级策略之间进行通信。随着LLM的出现,语言逐渐成为一种有前景的接口层。然而,其还是存在一些局限性。并非所有任务都能分解成易于用自然语言表达的步骤(例如,表演一段舞蹈)。此外,由于域迁移和灾难性遗忘,它使得基于具

2025-04-13 00:15:00 728

原创 评估通才机器人策略的分类法

25年3月来自斯坦福和谷歌的论文“A Taxonomy for Evaluating Generalist Robot Policies”。机器人中机器学习,有望将泛化能力扩展到新的任务和环境。受此启发,许多近期研究致力于扩展机器人数据收集,并开发更大规模、更具表现力的策略来实现这一目标。但是,如何在实践中衡量策略泛化目标的进展呢?评估和量化泛化能力,是现代机器人技术的“西部原野”,每项研究都提出并测量不同类型的泛化能力,这些能力通常难以复现。本研究目标是:(1) 全面细致地概述在机器人操作中重要的泛化

2025-04-13 00:15:00 1658

原创 AutoEval:现实世界中通才机器人操作策略的自主评估

25年3月来自 UC Berkeley 和 Nvidia 的论文“AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World”。可规模化且可复现的策略评估一直是机器人学习领域长期存在的挑战。评估对于评估进展和构建更优策略至关重要,但在现实世界中进行评估,尤其是在能够提供统计上可靠结果的规模上,耗费大量人力时间且难以获得。评估日益通才的机器人策略,需要日益多样化的评估环境,这使得评估

2025-04-12 00:15:00 821

原创 ORCA:一款开源、可靠、成本高效、拟人化的机械手,可实现不间断灵巧任务学习

25年4月来自瑞士 ETH 的论文“ORCA: An Open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning”。通用机器人应该拥有类似人类的灵巧性和敏捷性,才能像人一样灵活地执行任务。类似人类的外形设计,进一步促进海量人手交互数据集的使用。然而,灵巧操作的主要瓶颈不仅在于软件,更在于硬件。接近人类能力的机械手通常价格高昂、体积庞大,或者需要企业

2025-04-12 00:15:00 1345

原创 从小处着眼,从大处着手:为终身机器人操作的原语提示学习

25年4月来自上海AI实验室、复旦大学、上海交大、浙大、西工大、中国电信和美国索菲亚大学的论文“Think Small, Act Big: Primitive Prompt Learning for Lifelong Robot Manipulation”。构建一个可以有效利用先前知识进行持续技能获取的终身机器人,仍然具有重大挑战性。尽管经验重放和参数高效方法在缓解灾难性遗忘问题方面取得了成功,但单纯地应用这些方法会导致无法利用技能之间的共享原语。为了解决这些问题,提出原语提示学习(PPL),通过可重用

2025-04-11 00:15:00 1888

原创 模拟-与-现实协同训练:基于视觉机器人操控的简单方法

25年3月来自 UT Austin、Nvidia、UC Berkeley 和纽约大学的论文“Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation”。大型现实世界机器人数据集在训练通才机器人模型方面拥有巨大潜力,但扩展现实世界人类数据收集既耗时又耗资源。模拟在补充大规模数据方面潜力巨大,尤其是随着生成式人工智能和自动化数据生成工具的最新进展,这些工具能够实现机器人行为数据集的可扩展创建。然而,仅在模拟

2025-04-11 00:15:00 1035

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除