
大模型
文章平均质量分 87
三谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
大语言模型的长思维链推理:综述(下)
25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展原创 2025-03-21 00:15:00 · 243 阅读 · 0 评论 -
大语言模型的长思维链推理:综述(上)
25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展原创 2025-03-21 00:15:00 · 1076 阅读 · 0 评论 -
PointVLA:将 3D 世界注入视觉-语言-动作模型
25年3月来自美的集团、上海大学和华东师大的论文“PointVLA: Injecting the 3D World into Vision-Language-Action Models”。视觉-语言-动作 (VLA) 模型利用大规模 2D 视觉语言预训练,在机器人任务方面表现出色,但它们对 RGB 图像的依赖,限制对现实世界交互至关重要的空间推理。使用 3D 数据重训练这些模型在计算上是无法承受的,而丢弃现有的 2D 数据集会浪费宝贵的资源。为了弥补这一差距,PointVLA,使用点云输入增强预训练 V原创 2025-03-20 00:15:00 · 1017 阅读 · 0 评论 -
AnyTouch:跨多个视觉触觉传感器学习统一的静态动态表征
25年3月来自人大、武汉科技大学和北邮的论文“AnyTouch: Learning Unified Static-dynamic Representation Across Multiple Visuo-tactile Sensors”。视觉触觉传感器旨在模拟人类的触觉感知,使机器人能够精确地理解和操纵物体。随着时间的推移,许多精心设计的视觉触觉传感器已经集成到机器人系统中,帮助完成各种任务。然而,这些低标准化视觉触觉传感器的独特数据特性阻碍了强大的触觉感知系统的建立。解决这个问题的关键,在于学习统一的原创 2025-03-20 00:15:00 · 598 阅读 · 0 评论 -
Mobile-Agent-V:通过视频引导的多智体协作学习移动设备操作
25年2月来自北京交大和阿里巴巴公司的论文“Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration”。移动设备使用量的快速增长,迫切需要改进自动化以实现无缝任务管理。然而,因缺乏操作知识,许多人工智能驱动的框架举步维艰。手写知识虽然有帮助,但劳动强度大、效率低下。为了应对这些挑战,Mobile-Agent-V,利用视频指导为移动自动化提供丰富且经济高效操作知识。原创 2025-03-19 00:15:00 · 887 阅读 · 0 评论 -
OctoTools:一个具有复杂推理可扩展工具的智体框架
25年2月来自斯坦福大学的论文“OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning”。解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型 (LLM),但仅限于专业领域、有限的工具类型或需要额外的训练数据。本文的 OctoTools,是一个无需训练、用户友好且易于扩展的开源智体框架,旨在解决跨不同域的复杂推理。OctoTools 引入标准化工具卡来封装工原创 2025-03-19 00:15:00 · 1093 阅读 · 0 评论 -
探索具身多模态大模型:开发、数据集和未来方向(下)
25年2月来自广东人工智能和数字经济实验室、深圳大学、巴黎理工学院和巴黎高等师范学院、中山大学的论文“Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions”。近年来,具身多模态大模型 (EMLM) 因其在复杂的现实环境中弥合感知、认知和行动之间差距的潜力而备受关注。这篇全面的评论探讨此类模型的发展,包括大语言模型 (LLM)、大型视觉模型 (LVM) 和其他模型,同时也研究其他新兴原创 2025-03-18 00:15:00 · 1008 阅读 · 0 评论 -
探索具身多模态大模型:开发、数据集和未来方向(上)
25年2月来自广东人工智能和数字经济实验室、深圳大学、巴黎理工学院和巴黎高等师范学院、中山大学的论文“Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions”。近年来,具身多模态大模型 (EMLM) 因其在复杂的现实环境中弥合感知、认知和行动之间差距的潜力而备受关注。这篇全面的评论探讨此类模型的发展,包括大语言模型 (LLM)、大型视觉模型 (LVM) 和其他模型,同时也研究其他新兴架原创 2025-03-18 00:15:00 · 1552 阅读 · 0 评论 -
Gemma 3 技术报告
Gemma 3,是 Gemma 系列轻量级开放模型中的多模态成员,其规模从 10 亿到 270 亿个参数不等。此版引入视觉理解能力、更广泛的语言覆盖范围和更长的上下文(至少 128K 个tokens)。还更改模型的架构,减少在长上下文中往往会爆炸的 KV-缓存内存。这是通过增加局部与全局注意层的比例并保持局部注意的跨度较短来实现的。Gemma 3 模型经过蒸馏训练,无论是预训练版还是指令微调版,其性能都优于 Gemma 2。特别是,后训练方法显著提高数学、聊天、指令遵循和多语言能力,使 Gemma3-4B-原创 2025-03-17 00:15:00 · 1333 阅读 · 0 评论 -
Gemini Robotics:将人工智能带入物理世界
25年3月来自谷歌的技术报告“Gemini Robotics: Bringing AI into the Physical World”。大型多模态模型的最新进展,已使数字领域出现卓越的通才能力,但将其转化为机器人等物理智体仍然是一项重大挑战。一般有用的机器人需要能够理解周围的物理世界,并与之进行有效和安全的交互。本报告介绍专为机器人设计并建立在 Gemini 2.0 基础上的AI 模型系列。Gemini Robotics,是一种能够直接控制机器人的视觉-语言-动作 (VLA) 通才模型。Gemin原创 2025-03-17 00:00:00 · 1145 阅读 · 0 评论 -
Chameleon: 快-慢思考的神经-符号车道拓扑提取
25年3月来自清华和博世的论文“Chameleon: Fast-slow Neuro-symbolic Lane Topology Extraction”。车道拓扑提取,涉及检测车道和交通元素并确定它们之间的关系,这是无地图自动驾驶的一项关键感知任务。此任务需要复杂的推理,例如确定是否可以左转进入特定车道。为了应对这一挑战,引入由视觉-语言基础模型 (VLM) 驱动的神经-符号方法。现有方法有明显的局限性:(1) 使用 VLM 进行密集的视觉提示可以实现强大的性能,但在财务资源和碳足迹方面成本高昂,因此原创 2025-03-15 00:15:00 · 933 阅读 · 0 评论 -
Occ-LLM:利用基于占用的大语言模型增强自动驾驶
25年2月来自香港科技大学广州分校的论文“Occ-LLM: Enhancing Autonomous Driving with Occupancy-Based Large Language Models”。大语言模型 (LLM) 在机器人和自动驾驶领域取得重大进步。本研究提出一个基于占用的大型语言模型 (Occ-LLM),它代表将 LLM 与重要表示相结合的开创性努力。为了有效地将占用编码为 LLM 的输入并解决与占用相关的类别不平衡问题,其提出运动分离-变分自动编码器 (MS-VAE)。这种方法利用先验原创 2025-03-15 00:15:00 · 922 阅读 · 0 评论 -
AlphaDrive:通过强化学习和推理释放自动驾驶中 VLM 的力量
25年3月来自华中科技大学和地平线的论文“AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning”。OpenAI o1 和 DeepSeek R1 在数学和科学等复杂领域达到甚至超越人类专家级表现,其中强化学习 (RL) 和推理发挥着至关重要的作用。在自动驾驶中,最近的端到端模型已经大大提高规划性能,但由于常识和推理能力有限,仍然难以解决长尾问题。一些研究原创 2025-03-14 00:15:00 · 842 阅读 · 0 评论 -
DexGraspVLA:面向通用灵巧抓取的视觉-语言-动作框架
25年3月来自北大、北大-灵初智能(PsiBot)联合实验室、香港科技大学广州分校的论文“DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping”。灵巧抓取仍然是机器人技术中一个基本但具有挑战性的问题。通用机器人必须能够在任意场景中抓取各种物体。然而,现有研究通常依赖于特定假设,例如单物体设置或有限环境,导致泛化受限。本文 DexGraspVLA,是一个分层框架,它利用预训练的视觉语言模型作为高原创 2025-03-14 00:15:00 · 1432 阅读 · 0 评论 -
Satori:通过行动-思维-链进行强化学习,通过自回归搜索增强 LLM 推理能力
25年2月来自MIT、新加坡技术和设计大学、哈佛、MIT- IBM实验室和UMass的论文“Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search”。大语言模型 (LLM) 已在不同领域展现出卓越的推理能力。最近的研究表明,增加测试-时间计算可增强 LLM 的推理能力。这通常涉及在外部 LLM 验证者的指导下在推理时进行大量采样,从而形成双-玩家原创 2025-03-13 00:15:00 · 1974 阅读 · 0 评论 -
AgiBot World Colosseo:可扩展智能具身系统的大型操控平台
25年3月智元机器人发布具身模型 “AgiBot World Colosseo: Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems”。该工作探索可扩展的机器人数据如何解决现实世界中泛化机器人操作的挑战。AgiBot World,是一个大型平台,包含五种部署场景中 217 个任务的 100 多万条轨迹,与现有数据集相比,其数据规模实现数量级的增长。通过标准化收集管道和人机验证加速,AgiBot Wo原创 2025-03-13 00:15:00 · 1892 阅读 · 0 评论 -
预测逆动力学模型是机器人操作的可扩展学习器
24年12月来自上海AI实验室、北大和香港中文大学的论文“Predictive Inverse Dynamics Models Are Scalable Learners For Robotic Manipulation”。目前,在机器人操作中学习可扩展策略的努力主要分为两类:一类侧重于“动作”,涉及从大量的机器人数据中克隆行为;另一类强调“视觉”,通过使用大规模视觉数据集预训练表示或生成模型(也称为世界模型)来增强模型泛化。本文提出一种端到端范式,该范式使用以机器人预测视觉状态为条件的逆动力学模型来预原创 2025-03-12 00:15:00 · 1688 阅读 · 0 评论 -
扩散 Transformer 策略:用于通才视觉-语言-动作学习的规模化扩散 Transformer
25年2月来自上海AI实验室、浙大、香港中文大学、北大、商汤科技、清华和中科院香港科学创新研究院的论文“Diffusion Transformer Policy: Scaling Diffusion Transformer for Generalist Vision-Language-Action Learning”。最近,在多样化的机器人数据集上进行预训练的大型视觉-语言-动作模型,已展示出利用少量域内数据泛化到新环境的潜力。然而,这些方法通常通过小型动作头预测单个离散或连续动作,这限制处理多样化动作原创 2025-03-12 00:15:00 · 572 阅读 · 0 评论 -
RoboVQA:机器人多模态长范围推理
23 年 11 月来自 Google Deepmind 的论文“RoboVQA: Multimodal Long-Horizon Reasoning for Robotics”。本文提出一种可扩展、自下而上且本质多样化的数据收集方案,该方案可用于长期和中期的高级推理,与传统的狭窄自上而下的逐步收集相比,其吞吐量提高 2.2 倍。通过在 3 栋办公楼内执行任何用户请求并使用多种具身(机器人、人类、带抓取工具的人类)来收集真实数据。通过这些数据,表明在所有具身上训练的模型比仅在机器人数据上训练的模型表现更好原创 2025-03-11 00:15:00 · 1072 阅读 · 0 评论 -
通过并行解码加速与动作分块相结合的视觉-语言-动作模型
25年3月来自香港科大广州分校、西湖大学、浙大和澳大利亚 Monash 大学的论文“Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding”。视觉-语言-动作 (VLA) 模型在机器人操作方面表现出巨大的潜力。VLA 模型的性能可以通过与动作分块 (一种有效控制的关键技术) 相结合来提高。然而,随着分块大小的增加,动作分块会线性扩大 VLA 模型中的动作维度。这降低推理原创 2025-03-10 10:51:43 · 1058 阅读 · 0 评论 -
微调视觉-语言-行动模型:优化速度和成功率
25年2月来自斯坦福的论文“Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success”。最近的视觉-语言-动作模型 (VLA) 以预训练的视觉-语言模型为基础,利用各种机器人数据集来展示强大的任务执行、语言跟随能力和语义泛化能力。尽管取得了这些成功,但 VLA 仍难以适应新的机器人设置,需要进行微调才能获得良好的性能,但鉴于存在许多可能的策略,如何最有效地对其进行微调尚不清楚。原创 2025-03-09 00:15:00 · 1108 阅读 · 0 评论 -
Sce2DriveX:用于场景-到-驾驶学习的通用 MLLM 框架
25年2月来自中科院软件所和中科院大学的论文“Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning”。端到端自动驾驶是具身智能的重要组成部分,它将原始传感器输入直接映射到低级车辆控制。尽管在应用多模态大语言模型 (MLLM) 进行高级交通场景语义理解方面取得成功,但将这些概念语义理解有效地转化为低级运动控制命令并在跨场景驾驶中实现泛化和共识仍然具有挑战性。Sce2DriveX,是一种类似人类驾驶思维链 (CoT) 推理原创 2025-03-09 00:15:00 · 737 阅读 · 0 评论 -
RoboDexVLM:基于视觉-语言模型的任务规划和运动控制,实现灵巧机器人操作
25年3月来自香港科技大学广州分校的论文“RoboDexVLM: Visual Language Model-Enabled Task Planning and Motion Control for Dexterous Robot Manipulation”。RoboDexVLM,一种专为配备灵巧手、协作机械手定制的机器人任务规划和抓取检测框架。以前的方法侧重于简化和有限的操作任务,这些任务往往忽略以长距离方式抓取各种目标的复杂性。相比之下,该提出的框架利用灵巧手,能够在执行基于自然语言命令的任务时抓取原创 2025-03-07 00:15:00 · 620 阅读 · 0 评论 -
RoboBrain:从抽象到具体的机器人操作统一大脑模型
25年2月来自北大、北京智源、中科院自动化所等的论文“RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete”。目前的多模态大语言模型(MLLM) 缺少三项必备的机器人大脑能力:规划能力,将复杂的操作指令分解为可管理的子任务;affordance感知,识别和解释交互目标affordance的能力;轨迹预测,预测成功执行所需的完整操作轨迹。为了增强机器人大脑从抽象到具体的核能力,引入 Share原创 2025-03-07 00:15:00 · 811 阅读 · 0 评论 -
ReconDreamer:通过在线恢复构建驾驶场景重建的世界模型
24年11月来自极佳科技、北大、理想汽车和中科院自动化所的论文“ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration”。ReconDreamer,通过逐步整合世界模型知识来增强驾驶场景重建。具体来说,DriveRestorer 通过在线恢复来减轻伪影。该功能通过渐进式数据更新策略加以补充,旨在确保更复杂机动的高质量渲染。ReconDreamer 是一种能够在大规模机动中有效渲原创 2025-03-06 00:15:00 · 726 阅读 · 0 评论 -
MagicDriveDiT:具有自适应控制的自动驾驶高分辨率长视频生成
24年11月来自香港中文大学、香港科技大学和华为公司的论文“MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control”。扩散模型的快速进步极大地改善视频合成,特别是可控视频生成,这对于自动驾驶等应用至关重要。然而,现有的方法受到可扩展性和控制条件集成方式的限制,无法满足自动驾驶应用对高分辨率和长视频的需求。本文介绍一种基于 DiT 架构的方法 MagicDriveDi原创 2025-03-06 00:15:00 · 518 阅读 · 0 评论 -
VLM-E2E:通过多模态驾驶员注意融合增强端到端自动驾驶
25年2月来自香港科大广州分校、理想汽车和厦门大学的论文“VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion”。人类驾驶员能够利用丰富的注意语义,熟练地应对复杂场景,但当前的自动驾驶系统难以复制这种能力,因为它们在将 2D 观测值转换为 3D 空间时经常会丢失关键的语义信息。从这个意义上说,这阻碍了它们在动态和复杂环境中的有效部署。利用视觉-语言模型 (VLM) 卓越的场景理解和原创 2025-03-05 00:15:00 · 1158 阅读 · 0 评论 -
世界模型在塑造自动驾驶中的作用:综述
25年2月来自华中理工和百度的论文“”The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey“。驾驶世界模型 (DWM) 专注于预测驾驶过程中的场景演变,已成为实现自动驾驶一个有前途的范例。这些方法使自动驾驶系统能够更好地感知、理解和与动态驾驶环境交互。本综述全面概述 DWM 的最新进展。根据预测场景的模态对现有方法进行分类,并总结它们对自动驾驶的具体贡献。此外,还回顾 DWM 研究范围内针对不同任务的原创 2025-03-05 00:15:00 · 1948 阅读 · 0 评论 -
Helix 让 Figure-2 加速现实世界的物流
25年2月26日 Figure 发布新报告“Helix Accelerating Real-World Logistics”。Figure 任务的关键是将人形机器人引入劳动力队伍。在此 Figure 机器人介绍一种新的实际应用:物流包裹处理和分类。这项任务需要人类级别的速度、精度和适应性,突破从像素-到-动作学习操作的界限。Helix,是 Figure 内部设计的视觉-语言-动作 (VLA) 模型,它将感知、语言理解和学习控制统一起来。本文重点介绍 Helix 的系统 1 (S1)(低级视觉运动控制策略原创 2025-03-04 00:15:00 · 838 阅读 · 0 评论 -
强化学习中 Sim-to-Real 方法综述:基础模型的进展、前景和挑战
25年2月来自 Arizona State U 的论文“A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models”。深度强化学习 (RL) 已被探索并证实可有效解决机器人、交通、推荐系统等各个领域的决策任务。它从与环境的交互中学习,并使用收集的经验更新策略。然而,由于现实世界数据有限,采取有害行动的后果难以承受,RL 策略的学习主要局限于模拟器中。原创 2025-03-03 00:15:00 · 839 阅读 · 0 评论 -
大语言模型中的逻辑推理:综述
25年2月来自西湖大学、浙江师范大学和海南大学的论文“Logical Reasoning in Large Language Models: A Survey”。随着 OpenAI o3 和 DeepSeek-R1 等高级推理模型的出现,大语言模型 (LLM) 已展示出卓越的推理能力。然而,它们进行严格逻辑推理的能力仍是一个悬而未决的问题。本综述综合人工智能研究的关键领域 LLM 中逻辑推理的最新进展。它概述 LLM 中逻辑推理的范围、其理论基础以及用于评估推理能力的基准。分析不同推理范式(演绎、归纳、溯原创 2025-03-03 00:15:00 · 1092 阅读 · 0 评论 -
从系统 1 到系统 2:大语言模型推理的综述
25年2月来自阿联酋 MBZUAI、中科院自动化所、香港城市大学、香港科技大学广州分校、英国格拉斯哥的 Strathclyde 大学、小红书、华东师范大学和南方科技大学的论文“From System 1 to System 2: A Survey of Reasoning Large Language Models”。要实现人类水平的智能,需要改进从快速、直观、系统 1 到较慢、更慎重、系统 2 推理的过渡。虽然系统 1 擅长快速、启发式决策,但系统 2 依靠逻辑推理来做出更准确的判断并减少偏见。基础大原创 2025-03-02 00:15:00 · 1017 阅读 · 0 评论 -
HiRT:利用分层机器人Transformer 增强机器人控制
25年2月来自清华、伯克利分校和上海姚期智研究院的论文“HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers”。大型视觉-语言-动作 (VLA) 模型利用强大的预训练视觉-语言模型 (VLM) 后端,由于其深刻的泛化能力而在机器人控制方面显示出良好的前景。然而,成功是有代价的。它们对具有数十亿个参数的 VLM 后端的依赖导致高昂的计算成本和推理延迟,将测试场景限制在主要的准静态任务上,并阻碍需要快速交互的动态任务性能。为原创 2025-03-02 00:15:00 · 894 阅读 · 0 评论 -
LeapVAD:通过认知感知和 Dual-Process 思维实现自动驾驶的飞跃
25年1月来自浙江大学、上海AI实验室、慕尼黑工大、同济大学和中科大的论文“LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking”。尽管自动驾驶技术取得长足进步,但由于推理能力有限,数据驱动方法仍然难以应对复杂场景。与此同时,随着视觉语言模型的普及,知识驱动的自动驾驶系统也得到了长足发展。本文提出一种基于认知感知和 Dual-Process 思维的新方法 LeapVAD。该方法实现原创 2025-03-01 00:15:00 · 1189 阅读 · 0 评论 -
FASIONAD:自适应反馈的类人自动驾驶中快速和慢速思维融合系统
24年11月来自清华、早稻田大学、明尼苏达大学、多伦多大学、厦门大学马来西亚分校、电子科大(成都)、智平方科技和河南润泰数字科技的论文“FASIONAD : FAst and Slow FusION Thinking Systems for Human-Like Autonomous Driving with Adaptive Feedback”。确保安全、舒适和高效的导航是自动驾驶系统开发和可靠性的基础。虽然在大型数据集上训练的端到端模型在标准驾驶情况下表现良好,但它们往往难以应对罕见的长尾事件。大语原创 2025-03-01 00:15:00 · 969 阅读 · 0 评论 -
一种数据高效具身操作的原子技能库构建方法
25年1月来自京东、中科大、深圳大学、海尔集团、地平线机器人和睿尔曼智能科技的论文“An Atomic Skill Library Construction Method for Data-Efficient Embodied Manipulation”。具身操控是具身人工智能领域的一项基本能力。尽管目前的具身操控模型在特定场景下表现出一定的泛化能力,但由于现实场景的复杂性和多样性,它们在新的环境和任务中表现不佳。传统的端到端数据收集和训练方式,对数据需求巨大,将端到端任务分解为原子技能有助于减少数据需求原创 2025-02-28 00:15:00 · 816 阅读 · 0 评论 -
MOBA:长上下文 LLMs 的混合块注意机制
25年2月来自月之暗面、清华和浙大的论文“MOBA: Mixture Of Block Attention For Long-context LLMs”。扩展有效上下文长度对于将大语言模型 (LLM) 推进到通用人工智能 (AGI) 至关重要。然而,传统注意机制固有的计算复杂度的二次增加,带来高昂的开销。现有的方法要么施加强偏结构,例如特定任务的汇聚(sink)注意或窗注意,要么将注意机制彻底修改为线性近似,其在复杂推理任务中的表现仍未得到充分探索。原创 2025-02-28 00:15:00 · 1057 阅读 · 0 评论 -
ChatVLA:基于视觉-语言-动作模型的统一多模态理解和机器人控制
25年2月来自美的集团、华东师范大学、上海大学、北京人形机器人创新中心和清华大学的论文“ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model”。人类拥有统一的认知能力,可以感知、理解和与物理世界互动。为什么大语言模型无法复制这种整体理解?通过对视觉-语言-动作模型 (VLA) 中现有的训练范式进行系统分析,凸显两个关键挑战:虚假遗忘(机器人训练会覆盖关键的视觉-文本对齐)原创 2025-02-27 00:15:00 · 1163 阅读 · 0 评论 -
Magma:多模态 AI 智体的基础模型
25年2月来自微软研究、马里兰大学、Wisconsin大学、韩国 KAIST 和西雅图华盛顿大学的论文“Magma: A Foundation Model for Multimodal AI Agents”。Magma 是一个基础模型,可在数字和物理世界中服务于多模态 AI 智体任务。Magma 是视觉-语言 (VL) 模型的重要扩展,因为它不仅保留后者的 VL 理解能力(语言智能),还配备在视觉空间世界中规划和行动的能力(时空智能)以及完成从 UI 导航到机器人操作的智体任务。为了赋予智体能力,Mag原创 2025-02-27 00:15:00 · 942 阅读 · 0 评论 -
Humanoid-VLA:通过视觉集成实现通用人形机器人控制
25年2月来自西湖大学、浙江大学和西湖机器人公司的论文“Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration”。本文讨论当前人形机器人控制框架的局限性,这些框架主要依赖于反应机制,由于数据稀缺而缺乏自主交互能力。 Humanoid-VLA,是一个集成语言理解、自我中心场景感知和运动控制的框架,可实现通用人形机器人控制。Humanoid-VLA 首先使用非自我中心的人类运动数据集与文本描述进行语言-运动预对齐,从而原创 2025-02-26 00:15:00 · 780 阅读 · 0 评论