
机器学习
文章平均质量分 88
三谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
LeRobot的数据集系统(下)
LeRobot 的数据集系统提供了一个强大的框架,用于管理用于训练、评估和推理的机器人数据。本文介绍 LeRobot 数据集组件的架构和使用方法,重点介绍了机器人数据的存储、访问和处理方式。原创 2025-05-22 00:15:00 · 125 阅读 · 0 评论 -
LeRobot的数据集系统(上)
LeRobot 的数据集系统提供了一个强大的框架,用于管理用于训练、评估和推理的机器人数据。本文介绍 LeRobot 数据集组件的架构和使用方法,重点介绍了机器人数据的存储、访问和处理方式。原创 2025-05-22 00:15:00 · 689 阅读 · 0 评论 -
Hugging Face 开发的 LeRobot 框架安装说明
本文档提供了安装 LeRobot 框架的全面说明,该框架是一个基于 PyTorch 的库,用于现实世界机器人领域的最先进 AI。原创 2025-05-19 00:15:00 · 980 阅读 · 0 评论 -
Hugging Face 开发的 LeRobot 框架介绍
LeRobot 是由 Hugging Face 开发的基于 PyTorch 的现实世界机器人框架。它提供了用于机器人学习的先进模型、数据集和工具,重点关注模仿学习和强化学习方法。原创 2025-05-18 00:15:00 · 670 阅读 · 0 评论 -
基于模型的重标注学习在任何地方驾驶
25年5月来自UC Berkeley、丰田汽车北美分公司和普林斯顿大学的论文“Learning to Drive Anywhere with Model-Based Reannotation”。开发可泛化的机器人视觉导航策略是一项重大挑战,主要受限于能否获得大规模、多样化的训练数据。虽然研究人员收集的精选数据集质量较高,但其有限的规模限制了策略的泛化。为了克服这一问题,本文探索利用丰富的被动收集数据源,包括大量众包遥操作数据和未标记的 YouTube 视频,尽管这些数据可能质量较低或缺少动作标签。提出的原创 2025-05-18 00:15:00 · 813 阅读 · 0 评论 -
Hugging Face 中 LeRobot 使用的入门指南
本页面提供 LeRobot 的快速入门指南,涵盖如何加载数据集、评估预训练策略以及训练您自己的模型。原创 2025-05-16 00:15:00 · 715 阅读 · 0 评论 -
LeRobot 框架的核心架构概念和组件(下)
机器人控制系统是 LeRobot 框架的核心组件,提供用于操作、标定和记录物理机器人数据的接口。该系统支持遥操作、记录演示数据集、重放动作以及在真实机器人上运行已训练的策略。它充当用户、物理机器人硬件和训练流程之间的桥梁。原创 2025-05-16 00:15:00 · 1114 阅读 · 0 评论 -
LeRobot 框架的核心架构概念和组件(中)
环境系统提供与模拟环境交互的统一接口。这些环境允许在部署到物理机器人之前,在受控环境中训练和评估策略。LeRobot 与 Gymnasium(原名 Gym)集成,提供标准化的环境接口。环境创建通过工厂模式处理,从而可以一致地创建不同类型的环境:Aloha:双臂操控环境PushT:桌面推动环境XArm:单臂操控环境原创 2025-05-15 00:15:00 · 572 阅读 · 0 评论 -
LeRobot 框架的核心架构概念和组件(上)
LeRobot 采用模块化架构设计,在提供统一的机器人学习接口的同时,也兼具灵活性。该框架的核心由四个主要子系统组成:策略系统 - 实现各种机器人控制学习算法数据集管理 - 处理机器人数据的存储、加载和预处理环境接口 - 提供与模拟环境交互的抽象层机器人控制系统 - 管理机器人物理硬件和控制模式原创 2025-05-15 00:15:00 · 947 阅读 · 0 评论 -
机器人操作的扩散模型:综述
25年4月来自德国 KIT 的论文“DIFFUSION MODELS FOR ROBOTIC MANIPULATION: A SURVEY”。扩散生成模型在图像和视频生成等视觉领域取得了显著成功。近年来,它们在机器人技术领域,尤其是在机器人操控领域,也逐渐成为一种颇具前景的方法。扩散模型利用概率框架,并以其对多模态分布的建模能力以及对高维输入和输出空间的鲁棒性而脱颖而出。本综述全面回顾机器人操控领域中最先进的扩散模型,包括抓取学习、轨迹规划和数据增强。用于场景和图像增强的扩散模型,处于机器人技术和计算机原创 2025-05-12 03:00:00 · 805 阅读 · 0 评论 -
VideoMimic:视觉模仿实现上下文人形机器人控制
25年5月来自UC Berkeley 的论文“Visual Imitation Enables Contextual Humanoid Control”。如何教会类人机器人利用周围环境上下文爬楼梯和坐在椅子上?或许最简单的方法就是直接展示——随意捕捉一段人体运动视频,然后将其输入给类人机器人。VideoMimic 是一种“真实-到-模拟-到-真实”的流程,它挖掘日常视频,联合重建人类和环境,并为执行相应技能的类人机器人生成全身控制策略。在真实的类人机器人上展示该流程的成果,展示稳健、可重复的上下文控制,原创 2025-05-12 01:00:00 · 1032 阅读 · 0 评论 -
RoboOS:跨具身和多智体协作的分层具身框架
25年5月来自北京大学和北京智源的论文“RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration”。具身智能的兴起,为下一代工业生态系统带来前所未有的挑战,即需要具备韧性、认知驱动的多智体协作,从而彻底改变自主制造、自适应服务机器人和信息物理融合生产架构的范式。然而,当前的机器人系统面临着诸多限制,例如跨具身适应性有限、任务调度效率低下以及动态纠错能力不足。端到端视觉-语言-动原创 2025-05-08 09:40:39 · 768 阅读 · 0 评论 -
ROBOVERSE:面向可扩展和可泛化机器人学习的统一平台、数据集和基准
25年4月来自UC Berkeley、北大、USC、UMich、UIUC、Stanford、CMU、UCLA 和 北京通用 AI 研究院(BIGAI)的论文“ROBOVERSE: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning”。数据扩展和标准化评估基准,推动了自然语言处理和计算机视觉领域的重大进步。然而,机器人技术在数据扩展和建立可靠的评估协议方面面临着独特的原创 2025-05-07 12:44:43 · 1308 阅读 · 0 评论 -
LMPOcc:利用历史遍历的长期记忆先验进行 3D 语义占用预测
25年4月来自复旦和重庆长安汽车公司的论文“LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals”。基于视觉的 3D 语义占用预测对于自动驾驶至关重要,可实现静态基础设施和动态代理的统一建模。实际上,自动驾驶汽车可能会在不同的环境条件下(例如天气波动和光照变化)重复穿越相同的地理位置。现有的 3D 占用预测方法主要整合相邻的时间上下文。然而,这些研究忽略利用原创 2025-05-04 00:15:00 · 789 阅读 · 0 评论 -
HiP-AD:用于单解码器自动驾驶的可变形注意分层多粒度规划
25年3月来自 Nullmax 自动驾驶公司的论文“HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder”。尽管端到端自动驾驶 (E2E-AD) 技术近年来取得了显著进展,但在闭环评估方面的表现仍然不尽人意。在查询设计和交互中利用规划的潜力尚未得到充分挖掘。本文介绍一种多粒度规划查询表示,它集成异构航路点,包括跨各种采原创 2025-05-04 00:15:00 · 774 阅读 · 0 评论 -
开源大模型新标杆!Moxin-7B:从预训练到强化学习,全面透明的AI革新
Moxin 7B,这是一款完全开源的 LLM,它遵循模型开放框架 (MOF) 开发。MOF 是一个基于模型完备性和开放性评估 AI 模型的分级分类系统,秉承开放科学、开源、开放数据和开放访问的原则。我们的模型通过全面发布预训练代码和配置、训练和微调数据集以及中间和最终检查点,达到了 MOF 分类的最高级别“开放科学”,旨在持续致力于完全开源 LLM。预训练成本约为 16 万美元。在预训练获得基础模型后,我们使用 SOTA 训练后框架和指导数据对 Moxin Base 模型进行微调,以获得 Moxin Ins原创 2025-05-01 08:34:17 · 1328 阅读 · 0 评论 -
LLM 对齐技术综述:RLHF、RLAIF、PPO 和 DPO 等
24年7月来自 Salesforce 的论文"A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and more"。随着自监督学习的进步、预训练语料库中数万亿个 token 的出现、指令微调以及拥有数十亿参数的大型 Transformer 的开发,大语言模型 (LLM) 现已能够对人类查询生成真实且连贯的响应。然而,训练数据的质量参差不齐可能会导致生成不理想的响应,从而带来重大挑战。在过去的两年中,人们从不原创 2025-05-01 00:15:00 · 1118 阅读 · 0 评论 -
基于视觉的自动驾驶 3D 占据预测:回顾与展望
24年5月来自北航大学的论文“Vision-based 3D occupancy prediction in autonomous driving: a review and outlook”。近年来,自动驾驶因其在减轻驾驶员负担和提高驾驶安全性方面的潜力而受到越来越多的关注。基于视觉的 3D 占据预测是根据图像输入预测自动驾驶汽车周围 3D 体素网格的空间占据状态和语义,是一项新兴的感知任务,适用于经济高效的自动驾驶感知系统。本文首先介绍基于视觉的 3D 占据预测的背景并讨论该任务中的挑战。其次,从特原创 2025-04-30 00:49:47 · 1076 阅读 · 0 评论 -
高效 Transformer 的综述
20年9月来自谷歌研究的论文“Efficient Transformers: A Survey”。文章主要针对一类X-former模型,例如Reformer, Linformer, Performer, Longformer为例,这些对原版Transformer做了改进,提高了其计算和内存的效率。原创 2025-04-30 00:15:00 · 620 阅读 · 0 评论 -
ViTa-Zero:零样本视觉触觉目标 6D 姿态估计
25年4月来自Amazon 公司、Brown 大学和 Northestern 大学的论文“ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation”。目标 6D 姿态估计是机器人技术中的一项关键挑战,尤其对于操作任务而言。虽然先前结合视觉和触觉(视觉触觉)信息的研究已显示出良好的前景,但由于视觉触觉数据有限,这些方法往往难以推广。本文介绍 ViTa-Zero,一个零样本视觉触觉姿态估计框架。关键创新在于利用视觉模型作为其主干,并基于从触觉和本原创 2025-04-29 00:15:00 · 1309 阅读 · 0 评论 -
MANIPTRANS:通过残差学习实现高效的灵巧双手操作迁移
25年3月来自北京通用 AI 国家重点实验室、清华大学和北大的论文“ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning”。人手在交互中起着核心作用,推动着灵巧机器人操作研究的不断深入。数据驱动的具身智能算法需要精确、大规模、类似人类的操作序列,而这通过传统的强化学习或现实世界的遥操作难以实现。为了解决这个问题,引入 MANIPTRANS,一种两阶段方法,用于在模拟中将人类的双手技能有效地原创 2025-04-29 00:15:00 · 959 阅读 · 0 评论 -
ZeroGrasp:零样本形状重建助力机器人抓取
25年4月来自CMU、TRI 和 丰田子公司 Woven 的论文“ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping”。机器人抓取是具身系统的核心能力。许多方法直接基于部分信息输出抓取结果,而没有对场景的几何形状进行建模,导致运动效果不佳甚至发生碰撞。为了解决这些问题,本文引入 ZeroGrasp 框架,可以近乎实时地同时执行 3D 重建和抓取姿势预测。该方法的一个关键洞察是,遮挡推理和目标之间空间关系建模,有助于实现精确原创 2025-04-28 00:15:00 · 1111 阅读 · 0 评论 -
端到端自动驾驶的数据规模化定律
25年4月来自Nvidia、多伦多大学、NYU和斯坦福大学的论文“Data Scaling Laws for End-to-End Autonomous Driving”。自动驾驶汽车 (AV) 栈传统上依赖于分解方法,使用单独的模块处理感知、预测和规划。然而,这种设计在模块间通信期间会引入信息丢失,增加计算开销,并可能导致复合错误。为了应对这些挑战,最近的研究提出将所有组件集成到端到端可微分模型中的架构,从而实现整体系统优化。这种转变强调数据工程而不是软件集成,只需扩大训练资源规模即可提供提高系统性能原创 2025-04-27 00:15:00 · 1902 阅读 · 0 评论 -
机器人操作中的生成式 AI:综述(下)
25年3月来自香港大学、香港理工、香港科大、浙大和清华大学的论文“Generative Artificial Intelligence in Robotic Manipulation: A Survey”。本综述全面回顾机器人操作领域生成学习模型的最新进展,并探讨该领域的关键挑战。机器人操作面临着关键瓶颈,包括数据不足和数据采集效率低下、长期和复杂任务规划,以及在不同环境下实现稳健策略学习性能所需的多模态推理能力等重大挑战。为了应对这些挑战,本综述介绍几种生成模型范式,包括生成对抗网络 (GAN)、变分自原创 2025-04-25 00:15:00 · 1312 阅读 · 0 评论 -
机器人操作中的生成式 AI:综述(上)
25年3月来自香港大学、香港理工、香港科大、浙大和清华大学的论文“Generative Artificial Intelligence in Robotic Manipulation: A Survey”。本综述全面回顾机器人操作领域生成学习模型的最新进展,并探讨该领域的关键挑战。机器人操作面临着关键瓶颈,包括数据不足和数据采集效率低下、长期和复杂任务规划,以及在不同环境下实现稳健策略学习性能所需的多模态推理能力等重大挑战。原创 2025-04-25 00:15:00 · 1838 阅读 · 0 评论 -
UniOcc:自动驾驶占用预测和预报的统一基准
25年3月来自 UC Riverside、U Wisconsin 和 TAMU 的论文"UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving"。UniOcc 是一个全面统一的占用预测基准(即基于历史信息预测未来占用)和基于摄像头图像的当前帧占用预测。UniOcc 整合来自多个真实数据集(例如 nuScenes、Waymo)和高保真驾驶模拟器(例如 CARLA、OpenCOOD)原创 2025-04-24 00:15:00 · 995 阅读 · 0 评论 -
测试-时间规模化定律可以改进世界基础模型吗?
25年3月来自 UT Austin、UW Madison 和 Nvidia 的论文“Can Test-Time Scaling Improve World Foundation Model?”。世界基础模型(WFM)通过根据当前的观察和输入预测未来状态来模拟物理世界,已成为许多物理智能(PI)应用的核心,包括自动驾驶和机器人技术。然而,这些模型需要大量的计算资源进行预训练,并且在训练后受到可用数据的限制。因此,在测试-时规模化计算量成为传统模型扩大或重训练的关键且实用的替代方案。本文介绍 SWIFT,一原创 2025-04-23 00:15:00 · 1074 阅读 · 0 评论 -
GAIA-2:用于自动驾驶的可控多视图生成世界模型
25年3月来自英国创业公司 Wayze 的论文“GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving”。(注:23年9月其发布GAIA-1)生成模型为模拟复杂环境提供一种可扩展且灵活的范例,但目前的方法不足以满足自动驾驶领域特定要求,例如多智体交互、细粒度控制和多摄像头一致性。其推出 GAIA-2(自主生成人工智能),这是一个潜扩散世界模型,将这些功能统一在一个生成框架中。GAIA-2 支持以丰富的原创 2025-04-22 00:15:00 · 1339 阅读 · 0 评论 -
通过面向目标的奖励弥合人与机器人的灵活性差距
24年10月来自纽约大学的论文“Bridging the Human to Robot Dexterity Gap through Object-Oriented Rewards”。直接通过人类视频训练机器人是机器人技术和计算机视觉领域的一个新兴领域。尽管双指机械手在双指夹持器方面取得了显著进展,但以这种方式让多指机械手学习自主任务仍然充满挑战。造成这一困难的一个关键原因是,由于形态差异,在人手上训练的策略可能无法直接迁移到机械手上。本研究提出 HUDOR 技术,它能够通过直接从人类视频中计算奖励来在线原创 2025-04-20 00:15:00 · 755 阅读 · 0 评论 -
PROGRESSOR:具有自监督在线细化的感知引导奖励估计器
24年11月来自芝加哥大学和 TTI 的论文“PROGRESSOR: A Perceptually Guided Reward Estimator with Self-Supervised Online Refinement”。PROGRESSOR,从视频中学习与任务无关的奖励函数,从而能够在无需人工监督的情况下,通过目标条件强化学习(RL)进行策略训练。该奖励的基础是对任务进度分布的估计,该估计是当前、初始和目标观测值的函数,并以自监督的方式学习。至关重要的是,PROGRESSOR 是在线 RL 训练原创 2025-04-20 00:15:00 · 745 阅读 · 0 评论 -
Motion Tracks:少样本模仿学习中人-机器人之间迁移的统一表征
25年1月来自Cornell和Stanford的论文“MOTION TRACKS: A Unified Representation for Human-Robot Transfer in Few-Shot Imitation Learning”。教会机器人自主完成日常任务仍然是一项挑战。模仿学习 (IL) 是一种强大的方法,它通过演示向机器人灌输技能,但受限于收集遥控机器人数据需要耗费大量的人力。人类视频提供一种可扩展的替代方案,但由于缺乏机器人动作标签,直接利用这些视频训练 IL 策略仍然困难重重。原创 2025-04-19 00:15:00 · 1263 阅读 · 0 评论 -
DemoGen:用于数据高效视觉运动策略学习的合成演示生成
25年2月来自清华、上海姚期智研究院和上海AI实验室的论文“DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning”。视觉运动策略在机器人操控中展现出巨大潜力,但通常需要大量人工采集的数据才能有效执行。驱动高数据需求的一个关键因素,是其有限的空间泛化能力,这需要跨不同物体配置收集大量数据。本研究提出 DemoGen,一种低成本、完全合成的自动演示生成方法。DemoGen 每个任务仅原创 2025-04-19 00:15:00 · 813 阅读 · 0 评论 -
MAPLE:编码从自我为中心的视频中学习的灵巧机器人操作先验
25年3月来自ETH、Mimics Robotic 和微软研究院的论文“MAPLE: Encoding Dexterous Robotic Manipulation Priors Learned From Egocentric Videos”。大规模以自我为中心的视频数据集,捕捉各种场景中的各种人类活动,为人类如何与目标交互提供丰富而详细的洞察,尤其是那些需要细粒度灵巧控制的物体。这种复杂、灵巧的技能和精确的控制,对于许多机器人操作任务也至关重要,但传统的数据驱动机器人操作方法往往无法充分解决。为了弥补原创 2025-04-18 00:15:00 · 934 阅读 · 0 评论 -
通过人类和机器人演示进行联合逆向和正向动力学的机器人训练
25年3月来自哥伦比亚大学的论文“Train Robots in a JIF: Joint Inverse and Forward Dynamics with Human and Robot Demonstrations”。在大型机器人演示数据集上进行预训练是学习各种操作技能的强大技术,但通常受到收集以机器人为中心数据的高成本和复杂性限制,特别是对于需要触觉反馈的任务。这项工作引入一种使用多模态人类演示进行预训练的新方法来应对这些挑战。该方法联合学习逆动力学和正向动力学来提取潜状态表征,学习特定操作的表原创 2025-04-16 00:15:00 · 2078 阅读 · 0 评论 -
TLA:用于接触-丰富操作的触觉-语言-动作模型
25年3月来自三星中国研发中心、中科院自动化所和北京智源的论文“TLA: Tactile-Language-Action Model for Contact-Rich Manipulation”。视觉-语言模型已取得显著进展。然而,在语言条件下进行机器人操作以应对接触-密集型任务方面,仍未得到充分探索,尤其是在触觉感知方面。触觉-语言-动作 (TLA) 模型,通过跨模态语言基础有效地处理连续触觉反馈,从而能够在接触-密集型场景中实现稳健的策略生成。此外,构建一个包含 24000 对触觉动作指令数据的综合原创 2025-04-15 00:15:00 · 1577 阅读 · 0 评论 -
RoboCopilot:机器人操作的人-在-环交互模仿学习
25年3月来自伯克利分校的论文“RoboCopilot: Human-in-the-loop Interactive Imitation Learning for Robot Manipulation”。从人类示范中学习,是学习复杂操作技能的有效方法。然而,现有的方法主要侧重于从被动的人类示范数据中学习,因为其数据收集简单。交互式人类教学具有吸引人的理论和实践特性,但现有的人机界面并没有很好地支持。本文提出了一种系统,可以在双手操作任务中实现人机控制和自主策略之间的无缝切换,从而更有效地学习新任务。这是原创 2025-04-14 00:15:00 · 1198 阅读 · 0 评论 -
VidBot:从野外 2D 人体视频中学习可泛化的 3D 动作,实现零样本机器人操控
25年3月来自慕尼黑工大、瑞士 ETH 和微软的论文“VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation”。未来的机器人被设想为能够执行各种家务的多功能系统。最大的问题仍然是,如何在尽量减少机器人物理学习的同时弥合具身之间的差距,因为物理学习从根本上来说扩展性不强。从自然人类视频中学习,为机器人操作任务提供了一个有前途的解决方案,因为互联原创 2025-04-14 00:15:00 · 1189 阅读 · 0 评论 -
ORCA:一款开源、可靠、成本高效、拟人化的机械手,可实现不间断灵巧任务学习
25年4月来自瑞士 ETH 的论文“ORCA: An Open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning”。通用机器人应该拥有类似人类的灵巧性和敏捷性,才能像人一样灵活地执行任务。类似人类的外形设计,进一步促进海量人手交互数据集的使用。然而,灵巧操作的主要瓶颈不仅在于软件,更在于硬件。接近人类能力的机械手通常价格高昂、体积庞大,或者需要企业原创 2025-04-12 00:15:00 · 1437 阅读 · 0 评论 -
AutoEval:现实世界中通才机器人操作策略的自主评估
25年3月来自 UC Berkeley 和 Nvidia 的论文“AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World”。可规模化且可复现的策略评估一直是机器人学习领域长期存在的挑战。评估对于评估进展和构建更优策略至关重要,但在现实世界中进行评估,尤其是在能够提供统计上可靠结果的规模上,耗费大量人力时间且难以获得。评估日益通才的机器人策略,需要日益多样化的评估环境,这使得评估原创 2025-04-12 00:15:00 · 834 阅读 · 0 评论 -
模拟-与-现实协同训练:基于视觉机器人操控的简单方法
25年3月来自 UT Austin、Nvidia、UC Berkeley 和纽约大学的论文“Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation”。大型现实世界机器人数据集在训练通才机器人模型方面拥有巨大潜力,但扩展现实世界人类数据收集既耗时又耗资源。模拟在补充大规模数据方面潜力巨大,尤其是随着生成式人工智能和自动化数据生成工具的最新进展,这些工具能够实现机器人行为数据集的可扩展创建。然而,仅在模拟原创 2025-04-11 00:15:00 · 1055 阅读 · 0 评论