
智能体
文章平均质量分 88
三谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
PointVLA:将 3D 世界注入视觉-语言-动作模型
25年3月来自美的集团、上海大学和华东师大的论文“PointVLA: Injecting the 3D World into Vision-Language-Action Models”。视觉-语言-动作 (VLA) 模型利用大规模 2D 视觉语言预训练,在机器人任务方面表现出色,但它们对 RGB 图像的依赖,限制对现实世界交互至关重要的空间推理。使用 3D 数据重训练这些模型在计算上是无法承受的,而丢弃现有的 2D 数据集会浪费宝贵的资源。为了弥补这一差距,PointVLA,使用点云输入增强预训练 V原创 2025-03-20 00:15:00 · 1017 阅读 · 0 评论 -
AnyTouch:跨多个视觉触觉传感器学习统一的静态动态表征
25年3月来自人大、武汉科技大学和北邮的论文“AnyTouch: Learning Unified Static-dynamic Representation Across Multiple Visuo-tactile Sensors”。视觉触觉传感器旨在模拟人类的触觉感知,使机器人能够精确地理解和操纵物体。随着时间的推移,许多精心设计的视觉触觉传感器已经集成到机器人系统中,帮助完成各种任务。然而,这些低标准化视觉触觉传感器的独特数据特性阻碍了强大的触觉感知系统的建立。解决这个问题的关键,在于学习统一的原创 2025-03-20 00:15:00 · 598 阅读 · 0 评论 -
Mobile-Agent-V:通过视频引导的多智体协作学习移动设备操作
25年2月来自北京交大和阿里巴巴公司的论文“Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration”。移动设备使用量的快速增长,迫切需要改进自动化以实现无缝任务管理。然而,因缺乏操作知识,许多人工智能驱动的框架举步维艰。手写知识虽然有帮助,但劳动强度大、效率低下。为了应对这些挑战,Mobile-Agent-V,利用视频指导为移动自动化提供丰富且经济高效操作知识。原创 2025-03-19 00:15:00 · 888 阅读 · 0 评论 -
OctoTools:一个具有复杂推理可扩展工具的智体框架
25年2月来自斯坦福大学的论文“OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning”。解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型 (LLM),但仅限于专业领域、有限的工具类型或需要额外的训练数据。本文的 OctoTools,是一个无需训练、用户友好且易于扩展的开源智体框架,旨在解决跨不同域的复杂推理。OctoTools 引入标准化工具卡来封装工原创 2025-03-19 00:15:00 · 1094 阅读 · 0 评论 -
探索具身多模态大模型:开发、数据集和未来方向(下)
25年2月来自广东人工智能和数字经济实验室、深圳大学、巴黎理工学院和巴黎高等师范学院、中山大学的论文“Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions”。近年来,具身多模态大模型 (EMLM) 因其在复杂的现实环境中弥合感知、认知和行动之间差距的潜力而备受关注。这篇全面的评论探讨此类模型的发展,包括大语言模型 (LLM)、大型视觉模型 (LVM) 和其他模型,同时也研究其他新兴原创 2025-03-18 00:15:00 · 1008 阅读 · 0 评论 -
探索具身多模态大模型:开发、数据集和未来方向(上)
25年2月来自广东人工智能和数字经济实验室、深圳大学、巴黎理工学院和巴黎高等师范学院、中山大学的论文“Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions”。近年来,具身多模态大模型 (EMLM) 因其在复杂的现实环境中弥合感知、认知和行动之间差距的潜力而备受关注。这篇全面的评论探讨此类模型的发展,包括大语言模型 (LLM)、大型视觉模型 (LVM) 和其他模型,同时也研究其他新兴架原创 2025-03-18 00:15:00 · 1552 阅读 · 0 评论 -
Gemini Robotics:将人工智能带入物理世界
25年3月来自谷歌的技术报告“Gemini Robotics: Bringing AI into the Physical World”。大型多模态模型的最新进展,已使数字领域出现卓越的通才能力,但将其转化为机器人等物理智体仍然是一项重大挑战。一般有用的机器人需要能够理解周围的物理世界,并与之进行有效和安全的交互。本报告介绍专为机器人设计并建立在 Gemini 2.0 基础上的AI 模型系列。Gemini Robotics,是一种能够直接控制机器人的视觉-语言-动作 (VLA) 通才模型。Gemin原创 2025-03-17 00:00:00 · 1145 阅读 · 0 评论 -
行为机器人套件:简化日常家庭活动中真实世界的全身操控
25年3月来自斯坦福李飞飞团队的论文“BEHAVIOR ROBOT SUITE: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities”。现实世界的家务任务对移动机械操作机器人提出了重大挑战。对现有机器人基准的分析表明,成功的任务执行取决于三个关键的全身控制能力:双手协调、稳定和精确的导航以及广泛的末端执行器可达性。实现这些能力需要精心的硬件设计,但由此产生的系统复杂性使视觉运动策略学习进一步复原创 2025-03-16 00:15:00 · 897 阅读 · 0 评论 -
TidyBot++:用于机器人学习开源的完整移动机械手
24年12月来自普林斯顿、斯坦福和 dexterity.ai 的论文“TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning”。要充分利用模仿学习在移动机械操作方面的最新进展,需要收集大量人工引导的演示。本文提出一种开源设计,用于设计一种廉价、坚固、灵活的移动机械手,该机械手可支撑任意臂,从而实现各种现实世界的家用移动机械操作任务。至关重要的是,设计使用动力脚轮,使移动基座是完全完整的,能够独立且同时控制所有平面自原创 2025-03-16 00:15:00 · 534 阅读 · 0 评论 -
DexGraspVLA:面向通用灵巧抓取的视觉-语言-动作框架
25年3月来自北大、北大-灵初智能(PsiBot)联合实验室、香港科技大学广州分校的论文“DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping”。灵巧抓取仍然是机器人技术中一个基本但具有挑战性的问题。通用机器人必须能够在任意场景中抓取各种物体。然而,现有研究通常依赖于特定假设,例如单物体设置或有限环境,导致泛化受限。本文 DexGraspVLA,是一个分层框架,它利用预训练的视觉语言模型作为高原创 2025-03-14 00:15:00 · 1432 阅读 · 0 评论 -
AgiBot World Colosseo:可扩展智能具身系统的大型操控平台
25年3月智元机器人发布具身模型 “AgiBot World Colosseo: Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems”。该工作探索可扩展的机器人数据如何解决现实世界中泛化机器人操作的挑战。AgiBot World,是一个大型平台,包含五种部署场景中 217 个任务的 100 多万条轨迹,与现有数据集相比,其数据规模实现数量级的增长。通过标准化收集管道和人机验证加速,AgiBot Wo原创 2025-03-13 00:15:00 · 1892 阅读 · 0 评论 -
预测逆动力学模型是机器人操作的可扩展学习器
24年12月来自上海AI实验室、北大和香港中文大学的论文“Predictive Inverse Dynamics Models Are Scalable Learners For Robotic Manipulation”。目前,在机器人操作中学习可扩展策略的努力主要分为两类:一类侧重于“动作”,涉及从大量的机器人数据中克隆行为;另一类强调“视觉”,通过使用大规模视觉数据集预训练表示或生成模型(也称为世界模型)来增强模型泛化。本文提出一种端到端范式,该范式使用以机器人预测视觉状态为条件的逆动力学模型来预原创 2025-03-12 00:15:00 · 1688 阅读 · 0 评论 -
扩散 Transformer 策略:用于通才视觉-语言-动作学习的规模化扩散 Transformer
25年2月来自上海AI实验室、浙大、香港中文大学、北大、商汤科技、清华和中科院香港科学创新研究院的论文“Diffusion Transformer Policy: Scaling Diffusion Transformer for Generalist Vision-Language-Action Learning”。最近,在多样化的机器人数据集上进行预训练的大型视觉-语言-动作模型,已展示出利用少量域内数据泛化到新环境的潜力。然而,这些方法通常通过小型动作头预测单个离散或连续动作,这限制处理多样化动作原创 2025-03-12 00:15:00 · 572 阅读 · 0 评论 -
RoboVQA:机器人多模态长范围推理
23 年 11 月来自 Google Deepmind 的论文“RoboVQA: Multimodal Long-Horizon Reasoning for Robotics”。本文提出一种可扩展、自下而上且本质多样化的数据收集方案,该方案可用于长期和中期的高级推理,与传统的狭窄自上而下的逐步收集相比,其吞吐量提高 2.2 倍。通过在 3 栋办公楼内执行任何用户请求并使用多种具身(机器人、人类、带抓取工具的人类)来收集真实数据。通过这些数据,表明在所有具身上训练的模型比仅在机器人数据上训练的模型表现更好原创 2025-03-11 00:15:00 · 1072 阅读 · 0 评论 -
ForceMimic:以力为中心的模仿学习,采用力运动捕捉系统进行接触丰富的操作
25年3月来自上海交大卢策吾教授团队的论文“ForceMimic: Force-Centric Imitation Learning with Force-Motion Capture System for Contact-Rich Manipulation”。在大多数接触丰富的操作任务中,人类会将随时间变化的力施加到目标物体上,以补偿视觉引导手部轨迹的不准确性。然而,目前的机器人学习算法主要侧重于基于轨迹的策略,对学习与力相关的技能关注有限。为了解决这一限制,本文提出 ForceMimic,一种以力为原创 2025-03-11 00:15:00 · 1138 阅读 · 0 评论 -
通过并行解码加速与动作分块相结合的视觉-语言-动作模型
25年3月来自香港科大广州分校、西湖大学、浙大和澳大利亚 Monash 大学的论文“Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding”。视觉-语言-动作 (VLA) 模型在机器人操作方面表现出巨大的潜力。VLA 模型的性能可以通过与动作分块 (一种有效控制的关键技术) 相结合来提高。然而,随着分块大小的增加,动作分块会线性扩大 VLA 模型中的动作维度。这降低推理原创 2025-03-10 10:51:43 · 1058 阅读 · 0 评论 -
使用异构预训练 Transformer 扩展本体感受-视觉的学习
24年9月来自 MIT 何凯明团队和 Meta 的论文“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”。当今训练通用机器人模型的障碍之一是异构性。以前的机器人学习方法通常收集数据,用一个特定的具身来训练一个任务,这种方法成本高昂,而且容易过拟合。这项工作研究通过对不同具身和任务的机器人数据进行大规模异构预训练来学习策略表示的问题。提出异构预训练 Transformer (HPT),原创 2025-03-10 10:02:23 · 1007 阅读 · 0 评论 -
微调视觉-语言-行动模型:优化速度和成功率
25年2月来自斯坦福的论文“Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success”。最近的视觉-语言-动作模型 (VLA) 以预训练的视觉-语言模型为基础,利用各种机器人数据集来展示强大的任务执行、语言跟随能力和语义泛化能力。尽管取得了这些成功,但 VLA 仍难以适应新的机器人设置,需要进行微调才能获得良好的性能,但鉴于存在许多可能的策略,如何最有效地对其进行微调尚不清楚。原创 2025-03-09 00:15:00 · 1108 阅读 · 0 评论 -
学习现实世界人形机器人的起身策略
25年2月来自UIUC和Simon Fraser U的论文“Learning Getting-Up Policies for Real-World Humanoid Robots”。跌倒的自动恢复是人形机器人可靠部署的关键先决条件。由于人形机器人跌倒后可能处于各种不同的配置,并且人形机器人需要在具有挑战性的地形上运行,因此手工设计起身控制器非常困难。本文开发一个学习框架来生成控制器,使人形机器人能够从不同地形的不同配置中起身。与以前成功的人形运动学习应用不同,起身任务涉及复杂的接触模式,这需要准确建模碰原创 2025-03-04 00:15:00 · 1578 阅读 · 0 评论 -
Helix 让 Figure-2 加速现实世界的物流
25年2月26日 Figure 发布新报告“Helix Accelerating Real-World Logistics”。Figure 任务的关键是将人形机器人引入劳动力队伍。在此 Figure 机器人介绍一种新的实际应用:物流包裹处理和分类。这项任务需要人类级别的速度、精度和适应性,突破从像素-到-动作学习操作的界限。Helix,是 Figure 内部设计的视觉-语言-动作 (VLA) 模型,它将感知、语言理解和学习控制统一起来。本文重点介绍 Helix 的系统 1 (S1)(低级视觉运动控制策略原创 2025-03-04 00:15:00 · 838 阅读 · 0 评论 -
强化学习中 Sim-to-Real 方法综述:基础模型的进展、前景和挑战
25年2月来自 Arizona State U 的论文“A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models”。深度强化学习 (RL) 已被探索并证实可有效解决机器人、交通、推荐系统等各个领域的决策任务。它从与环境的交互中学习,并使用收集的经验更新策略。然而,由于现实世界数据有限,采取有害行动的后果难以承受,RL 策略的学习主要局限于模拟器中。原创 2025-03-03 00:15:00 · 839 阅读 · 0 评论 -
HiRT:利用分层机器人Transformer 增强机器人控制
25年2月来自清华、伯克利分校和上海姚期智研究院的论文“HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers”。大型视觉-语言-动作 (VLA) 模型利用强大的预训练视觉-语言模型 (VLM) 后端,由于其深刻的泛化能力而在机器人控制方面显示出良好的前景。然而,成功是有代价的。它们对具有数十亿个参数的 VLM 后端的依赖导致高昂的计算成本和推理延迟,将测试场景限制在主要的准静态任务上,并阻碍需要快速交互的动态任务性能。为原创 2025-03-02 00:15:00 · 894 阅读 · 0 评论 -
一种数据高效具身操作的原子技能库构建方法
25年1月来自京东、中科大、深圳大学、海尔集团、地平线机器人和睿尔曼智能科技的论文“An Atomic Skill Library Construction Method for Data-Efficient Embodied Manipulation”。具身操控是具身人工智能领域的一项基本能力。尽管目前的具身操控模型在特定场景下表现出一定的泛化能力,但由于现实场景的复杂性和多样性,它们在新的环境和任务中表现不佳。传统的端到端数据收集和训练方式,对数据需求巨大,将端到端任务分解为原子技能有助于减少数据需求原创 2025-02-28 00:15:00 · 816 阅读 · 0 评论 -
ChatVLA:基于视觉-语言-动作模型的统一多模态理解和机器人控制
25年2月来自美的集团、华东师范大学、上海大学、北京人形机器人创新中心和清华大学的论文“ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model”。人类拥有统一的认知能力,可以感知、理解和与物理世界互动。为什么大语言模型无法复制这种整体理解?通过对视觉-语言-动作模型 (VLA) 中现有的训练范式进行系统分析,凸显两个关键挑战:虚假遗忘(机器人训练会覆盖关键的视觉-文本对齐)原创 2025-02-27 00:15:00 · 1163 阅读 · 0 评论 -
Magma:多模态 AI 智体的基础模型
25年2月来自微软研究、马里兰大学、Wisconsin大学、韩国 KAIST 和西雅图华盛顿大学的论文“Magma: A Foundation Model for Multimodal AI Agents”。Magma 是一个基础模型,可在数字和物理世界中服务于多模态 AI 智体任务。Magma 是视觉-语言 (VL) 模型的重要扩展,因为它不仅保留后者的 VL 理解能力(语言智能),还配备在视觉空间世界中规划和行动的能力(时空智能)以及完成从 UI 导航到机器人操作的智体任务。为了赋予智体能力,Mag原创 2025-02-27 00:15:00 · 942 阅读 · 0 评论 -
Humanoid-VLA:通过视觉集成实现通用人形机器人控制
25年2月来自西湖大学、浙江大学和西湖机器人公司的论文“Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration”。本文讨论当前人形机器人控制框架的局限性,这些框架主要依赖于反应机制,由于数据稀缺而缺乏自主交互能力。 Humanoid-VLA,是一个集成语言理解、自我中心场景感知和运动控制的框架,可实现通用人形机器人控制。Humanoid-VLA 首先使用非自我中心的人类运动数据集与文本描述进行语言-运动预对齐,从而原创 2025-02-26 00:15:00 · 780 阅读 · 0 评论 -
HOMIE:具有同构外骨骼座舱的人形机器人操控
25年2月来自上海AI实验室和香港中文大学的论文“HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit”。目前的人形遥操作系统要么缺乏可靠的低级控制策略,要么难以获取准确的全身控制命令,这使得遥操作人形机器人执行操控任务变得非常困难。为了解决这些问题,HOMIE,一种人形遥操作驾驶舱,它集成人形操控策略和低成本外骨骼硬件系统。该策略使人形机器人能够行走和下蹲到特定的高度,同时适应任意的上身姿势。这是通过基于强化学习的训原创 2025-02-26 00:15:00 · 1265 阅读 · 0 评论 -
面向机器人操作的协同、泛化和高效的双-系统
24年10月来自上海交大、香港大学、智元机器人和上海 AI 实验室的论文“Towards Synergistic, Generalized And Efficient Dual-system For Robotic Manipulation ”。随着多功能机器人系统在多样化和动态环境中运行的需求日益增长,这凸显一个通才策略的重要性,其利用大量跨具身数据语料库来促进广泛的适应性和高级推理。然而,通才策略会面临推理效率低下和训练成本高昂的问题。相反,专家策略是针对特定领域数据制定的,在任务级精度和效率方面表原创 2025-02-25 00:15:00 · 1235 阅读 · 0 评论 -
具有快慢思考的语言调节机器人操作
24年1月来自华东师范大学、美的集团和上海大学的论文“Language-Conditioned Robotic Manipulation with Fast and Slow Thinking”。语言调节机器人操作,旨在将自然语言指令转化为可执行动作,从简单的“拾取和放置”到需要意图识别和视觉推理的任务。受认知科学中的 Dual Process 理论的启发——该理论表明人类决策中存在两个平行的快速和慢速思考系统——引入快速和慢速思考机器人 (RFST),这是一个模仿人类认知架构的框架,用于对任务进行分类并原创 2025-02-25 00:15:00 · 1988 阅读 · 0 评论 -
Video2Policy:通过互联网视频规模化模拟中的操作任务
25年2月来自清华、上海姚期智研究院、上海AI实验室、UC Berkeley 和 UCSD 的论文“Video2Policy: Scaling up Manipulation Tasks in Simulation through Internet Videos”。模拟为通才策略提供一种廉价的规模化训练数据的方法。为了可扩展地从多样化和现实的任务中生成数据,现有的算法要么依赖于大语言模型 (LLM),这可能会产生机器人不感兴趣的任务;要么依赖于数字孪生,这需要仔细的真实-到-模拟对齐并且难以规模化。为原创 2025-02-24 00:15:00 · 1538 阅读 · 0 评论 -
Helix:用于通才人形机器人控制的视觉-语言-动作模型
25年2月20日智能机器人公司 Figure.AI 发布的 VLA 模型 “Helix: A Vision-Language-Action Model for Generalist Humanoid Control”。Helix 是一种通才的视觉-语言-动作 (VLA) 模型,它将感知、语言理解和学习控制统一起来,以克服机器人领域的多个长期挑战。Helix 的创新点:全上身控制:Helix 是第一个输出整个人形上身(包括手腕、躯干、头部和各个手指)的高速率连续控制的 VLA。原创 2025-02-21 11:25:57 · 1247 阅读 · 0 评论 -
RoboHorizon:用于长期机器人操作的 LLM-辅助多视图世界模型
25年1月来自南京大学的论文“RoboHorizon: An LLM-Assisted Multi-View World Model for Long-Horizon Robotic Manipulation”。由于复杂的表示和策略学习要求,长期机器人操作的有效控制具有挑战性。基于模型的视觉强化学习 (RL) 在解决这些挑战方面表现出巨大潜力,但仍然面临明显的局限性,特别是在处理长期环境中的稀疏奖励和复杂视觉特征时。为了解决这些限制,本文提出用于长期任务的识别-感知-规划-动作 (RSPA) 流程,并进原创 2025-02-23 00:15:00 · 764 阅读 · 0 评论 -
DexterityGEN:前所未有灵活度的基础控制器
25年2月来自伯克利 BAIR 和 Meta FAIR 的论文“DexterityGEN: Foundation Controller for Unprecedented Dexterity”。教授机器人灵巧的操作技能(例如使用工具)是一项艰巨的挑战。当前的方法大致可分为两种策略:人类遥控(用于模仿学习)和模拟-到-现实的强化学习。第一种方法很难,因为人类很难在没有触觉反馈的情况下在不同实施例上做出安全灵巧的动作。第二种基于 RL 的方法则难以解决域差距问题,并且涉及对复杂任务进行高度任务特定的奖励工程。原创 2025-02-22 00:15:00 · 749 阅读 · 0 评论 -
智体推理:使用工具的推理 LLM 用于深度研究
25年2月来自牛津大学的论文“Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research”。本技术报告介绍智体推理(Agentic Reasoning),这是一个通过集成外部工具使用智体来增强大语言模型 (LLM) 推理的框架。与仅依赖内部推理的传统 LLM 推理方法不同,智体推理动态地参与网络搜索、代码执行和结构化推理上下文记忆,以解决需要深入研究和多步逻辑推理的复杂问题。该框架引入思维图智体(Mind Map agent),它原创 2025-02-19 00:15:00 · 1679 阅读 · 0 评论 -
ScoreFlow:通过基于分数的偏好优化掌握 LLM 智体工作流程
25年2月来自 U of Chicago、Princeton U 和 U of Oxford 的论文“ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization”。最近的研究利用大语言模型多智体系统来解决复杂问题,同时试图减少构建它们所需的手动工作量,从而推动自动智体工作流优化方法的发展。然而,现有方法在依赖离散优化技术时,由于表征限制、缺乏适应性和可扩展性差,仍然缺乏灵活性。本文用 ScoreFlow原创 2025-02-18 00:15:00 · 995 阅读 · 0 评论 -
在线强化学习改进VLA模型
25年1月来自清华、伯克利分校和上海姚期智研究院的论文“mproving Vision-Language-Action Model with Online Reinforcement Learning”。最近的研究已成功地将大型视觉-语言模型 (VLM) 通过使用专家机器人数据集进行监督微调 (SFT) 集成到低级机器人控制中,从而产生视觉-语言-动作 (VLA) 模型。虽然 VLA 模型功能强大,但如何在与环境交互的过程中改进这些大型模型仍是一个悬而未决的问题。本文探讨如何通过强化学习 (RL) 进一原创 2025-02-17 00:15:00 · 1168 阅读 · 0 评论 -
AVID:使视频传播模型适应世界模型
24年11月来自微软的论文“AVID: Adapting Video Diffusion Models To World Models”。大规模生成模型在许多领域取得了显著的成功。然而,对于机器人等顺序决策问题,动作标记数据通常很少,因此扩大决策基础模型仍然是一个挑战。一个潜在的解决方案,是利用广泛可用的未标记视频来训练模拟动作后果的世界模型。如果世界模型准确,则可以用它来优化下游任务中的决策。图像-到-视频的扩散模型,已经能够生成高度逼真的合成视频。然而,这些模型不是动作条件的,最强大的模型是闭源的,原创 2025-02-16 07:19:16 · 562 阅读 · 0 评论 -
RoboBERT:端到端多模态机器人操控模型
25年2月来自西湖大学、安徽工业大学、汉堡大学、Phibotnacci.ai 和北邮的论文“RoboBERT: An End-to-end Multimodal Robotic Manipulation Model”。具身智能集成多种模态,使智体能够同时理解图像、语言和动作。然而,现有的模型总是依赖于额外的数据集或大量的预训练来最大限度地提高性能,消耗大量的训练时间和昂贵的硬件成本。为了解决这个问题,RoboBERT作为一种集成训练策略的端到端机器人操作模型,采用基于 CNN 的扩散策略,通过分离不同模原创 2025-02-15 00:15:00 · 2033 阅读 · 0 评论 -
DexVLA:通用机器人控制中具有插件式扩散专家的视觉语言模型
25年2月来自美的集团和华东师范的论文“DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control”。让机器人能够在不同的环境中执行不同的任务是机器人学习的核心挑战。虽然视觉-语言-动作 (VLA) 模型已显示出可泛化机器人技能的前景,但要充分发挥其潜力,需要解决动作表示和有效训练方面的限制。当前的 VLA 模型通常侧重于规模化视觉-语言模型 (VLM) 组件,而动作空间表示仍然是一个关键的瓶颈原创 2025-02-14 00:15:00 · 1270 阅读 · 0 评论 -
LearningFlow:大语言模型城市驾驶的自动化策略学习工作流程
25年1月来自香港科技大学广州分校的论文“LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models”。强化学习 (RL) 的最新进展表明其在自动驾驶领域具有巨大潜力。尽管前景光明,但诸如手动设计奖励函数和复杂环境中的低样本效率等挑战,仍然阻碍着安全有效的驾驶策略开发。为了解决这些问题,LearningFlow,针对城市驾驶的自动化策略学习,提出一个工作流程。该框架在整个 RL原创 2025-02-14 00:15:00 · 1255 阅读 · 0 评论