
大模型
文章平均质量分 87
三谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
Hugging Face 中 LeRobot 学习的策略
在 LeRobot 中,策略是一种机器学习模型,旨在根据各种输入模式控制机器人。每个策略实现共享一个通用接口,同时提供针对不同任务和数据类型优化的不同底层算法和架构。原创 2025-05-21 00:15:00 · 728 阅读 · 0 评论 -
视觉与语言导航的现状与未来:基础模型时代综述
24年12月来自密歇根州立、密歇根大学、UNC Chapel Hill 和澳大利亚阿德莱德大学的论文“Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models”。近年来,视觉与语言导航 (VLN) 备受关注,并涌现出众多方法以推动其发展。基础模型的卓越成就塑造 VLN 研究的挑战和方法。本综述自上而下地回顾具身规划和推理的原则性框架,并重点介绍利用基础模型应对 VLN 挑战的现有原创 2025-05-21 00:15:00 · 1106 阅读 · 0 评论 -
视觉-和-语言导航的综述:任务、方法和未来方向
22年6月来自UC Santa Cruz、澳大利亚的阿德莱德大学和 USC 的论文“Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions”。人工智能研究的一个长期目标是构建能够用自然语言与人类交流、感知环境并执行现实世界任务的智体。视觉与语言导航 (VLN) 是实现这一目标的一个基础性跨学科研究课题,并日益受到自然语言处理、计算机视觉、机器人技术和机器学习领域的关注。本文回顾 VLN 这一新兴领原创 2025-05-20 00:15:00 · 936 阅读 · 0 评论 -
视觉-语言导航:综述与类别
22年4月来自国防科大的论文“Vision-Language Navigation: A Survey and Taxonomy”。视觉-语言导航 (VLN) 任务要求智体遵循人类语言指令,在未曾见过的环境中导航。这个充满挑战的领域涉及自然语言处理、计算机视觉、机器人技术等领域,并催生了众多专注于各种 VLN 任务的优秀成果。本文对这些任务进行了全面的综述,并根据这些任务中语言指令的不同特点,对其进行了深入的分类。根据导航指令是一次性给出还是多次给出,本文将任务分为两类:单轮任务和多轮任务。对于单轮任务原创 2025-05-20 00:15:00 · 796 阅读 · 0 评论 -
具身智能时代基于物理模拟器的机器人导航与操控研究
25年5月来自香港城市大学、墨尔本大学和汉堡大学的论文“A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI”。导航和操控是具身智能的核心能力,然而在现实世界中训练具备这些能力的智体却面临着高昂的成本和时间复杂度。因此,模拟-到-现实的迁移已成为一种关键方法,但模拟-到-现实的差距仍然存在。本综述分析被忽视的物理模拟器特性,探讨如何弥补这一差距。还分析它们在导航和原创 2025-05-19 00:15:00 · 1646 阅读 · 0 评论 -
学习以任务为中心的潜动作,随地采取行动
25年5月来自香港大学、OpenDriveLab 和智元机器人的论文“Learning to Act Anywhere with Task-centric Latent Actions”。通用机器人应该在各种环境中高效运行。然而,大多数现有方法严重依赖于扩展动作标注数据来增强其能力。因此,它们通常局限于单一的物理规范,难以学习跨不同具身和环境的可迁移知识。为了突破这些限制,UniVLA,是一个用于学习跨具身视觉-语言-动作 (VLA) 策略的全新框架。关键创新在于利用潜动作模型从视频中获取以任务为中心的原创 2025-05-17 00:15:00 · 904 阅读 · 0 评论 -
ReinboT:通过强化学习增强机器人视觉-语言操控能力
25年5月来自浙大和西湖大学的论文“ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning”。视觉-语言-动作 (VLA) 模型通过模仿学习在一般机器人决策任务中展现出巨大潜力。然而,训练数据的质量参差不齐通常会限制这些模型的性能。另一方面,离线强化学习 (RL) 擅长从混合质量数据中学习稳健的策略模型。本文介绍强化的机器人 GPT (ReinboT),这是一种端到端 VLA 模型,它集成 RL原创 2025-05-17 00:15:00 · 1022 阅读 · 0 评论 -
RobotxR1:通过闭环强化学习在大语言模型上实现具身机器人智能
25年5月来自瑞士 ETH 的论文“RobotxR1: Enabling Embodied Robotic Intelligence on Large Language Models through Closed-Loop Reinforcement Learning”。未来在现实环境中运行的机器人系统将需要机载具身智能,而无需持续的云连接,从而在功能与计算能力和内存限制之间取得平衡。这项工作提出 R1-zero 方法的扩展,该方法支持在机器人领域使用低参数计数大语言模型 (LLM)。R1-Zero 方原创 2025-05-14 00:15:00 · 1383 阅读 · 0 评论 -
GraspVLA:基于Billion-级合成动作数据预训练的抓取基础模型
25年5月来自银河通用(Galbot)、北大、港大和 BAAI 的论文“GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data”。具身基础模型因其零样本泛化能力、可扩展性以及通过少量后训练即可适应新任务的优势,正日益受到关注。然而,现有模型严重依赖真实世界数据,而这些数据的收集成本高昂且耗费人力。合成数据提供了一种经济高效的替代方案,但其潜力仍未被充分开发。为了弥补这一不足,本文探索原创 2025-05-14 00:15:00 · 960 阅读 · 0 评论 -
视觉-语言-动作模型:概念、进展、应用与挑战(下)
25年5月来自 Cornell 大学、香港科大和希腊 U Peloponnese 的论文“Vision-Language-Action Models: Concepts, Progress, Applications and Challenges”。视觉-语言-动作 (VLA) 模型标志着人工智能的变革性进步,旨在将感知、自然语言理解和具体动作统一在一个计算框架内。这篇基础综述全面总结视觉-语言-动作模型的最新进展,并系统地涵盖构成这一快速发展领域格局的五大主题支柱。原创 2025-05-13 00:15:00 · 1425 阅读 · 0 评论 -
视觉-语言-动作模型:概念、进展、应用与挑战(上)
25年5月来自 Cornell 大学、香港科大和希腊 U Peloponnese 的论文“Vision-Language-Action Models: Concepts, Progress, Applications and Challenges”。视觉-语言-动作 (VLA) 模型标志着人工智能的变革性进步,旨在将感知、自然语言理解和具体动作统一在一个计算框架内。这篇基础综述全面总结视觉-语言-动作模型的最新进展,并系统地涵盖构成这一快速发展领域格局的五大主题支柱。首先建立 VLA 系统的概念基础,追原创 2025-05-13 00:15:00 · 1043 阅读 · 0 评论 -
多智体具身人工智能:进展与未来方向(下)
25年5月来自北理工、南大、西安交大、浙大和同济大学的论文“Multi-Agent Embodied AI: Advances And Future Directions”。具身人工智能(Embodied AI)在智能时代先进技术的应用中扮演着关键角色。在智能时代,人工智能系统与物理实体相融合,使其能够感知、推理并与环境交互。通过使用传感器输入和执行器执行动作,这些系统能够根据现实世界的反馈进行学习和调整,从而能够在动态且不可预测的环境中有效地执行任务。随着深度学习(DL)、强化学习(RL)和大语言模型(原创 2025-05-11 15:19:49 · 710 阅读 · 0 评论 -
多智体具身人工智能:进展与未来方向(上)
25年5月来自北理工、南大、西安交大、浙大和同济大学的论文“Multi-Agent Embodied AI: Advances And Future Directions”。具身人工智能(Embodied AI)在智能时代先进技术的应用中扮演着关键角色。在智能时代,人工智能系统与物理实体相融合,使其能够感知、推理并与环境交互。通过使用传感器输入和执行器执行动作,这些系统能够根据现实世界的反馈进行学习和调整,从而能够在动态且不可预测的环境中有效地执行任务。随着深度学习(DL)、强化学习(RL)和大语言模型原创 2025-05-11 14:18:13 · 1183 阅读 · 0 评论 -
具身机器人策略学习的泛化方法
机器人技术的一大挑战是打造一个通用机器人,使其能够根据任意用户命令在非结构化环境中执行多种任务。这一努力的关键挑战是泛化:机器人必须应对新环境,识别和操纵从未见过的目标,并理解从未被要求执行的命令意图。从像素进行端到端学习,是建模此类通用机器人行为的灵活选择,因为对世界状态表示的假设很少。有了足够的现实世界数据,这些方法原则上应该能够使机器人在新的任务、物体和场景中进行泛化,而无需手工编码、特定于任务的表示。然而,实现这一目标通常仍然难以实现。原创 2025-05-06 03:06:28 · 1088 阅读 · 0 评论 -
开源大模型新标杆!Moxin-7B:从预训练到强化学习,全面透明的AI革新
Moxin 7B,这是一款完全开源的 LLM,它遵循模型开放框架 (MOF) 开发。MOF 是一个基于模型完备性和开放性评估 AI 模型的分级分类系统,秉承开放科学、开源、开放数据和开放访问的原则。我们的模型通过全面发布预训练代码和配置、训练和微调数据集以及中间和最终检查点,达到了 MOF 分类的最高级别“开放科学”,旨在持续致力于完全开源 LLM。预训练成本约为 16 万美元。在预训练获得基础模型后,我们使用 SOTA 训练后框架和指导数据对 Moxin Base 模型进行微调,以获得 Moxin Ins原创 2025-05-01 08:34:17 · 1328 阅读 · 0 评论 -
LLM 对齐技术综述:RLHF、RLAIF、PPO 和 DPO 等
24年7月来自 Salesforce 的论文"A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and more"。随着自监督学习的进步、预训练语料库中数万亿个 token 的出现、指令微调以及拥有数十亿参数的大型 Transformer 的开发,大语言模型 (LLM) 现已能够对人类查询生成真实且连贯的响应。然而,训练数据的质量参差不齐可能会导致生成不理想的响应,从而带来重大挑战。在过去的两年中,人们从不原创 2025-05-01 00:15:00 · 1118 阅读 · 0 评论 -
高效 Transformer 的综述
20年9月来自谷歌研究的论文“Efficient Transformers: A Survey”。文章主要针对一类X-former模型,例如Reformer, Linformer, Performer, Longformer为例,这些对原版Transformer做了改进,提高了其计算和内存的效率。原创 2025-04-30 00:15:00 · 620 阅读 · 0 评论 -
π0.5:带开放世界泛化的视觉-语言-动作模型
25年4月来自具身机器人创业公司 PI 公司的论文“π0.5: a Vision-Language-Action Model with Open-World Generalization”。为了使机器人发挥作用,它们必须在实验室之外的现实世界中执行实际相关的任务。虽然视觉-语言-动作 (VLA) 模型在端到端机器人控制方面已展现出印象深刻的效果,但此类模型在实际应用中的泛化能力仍是一个悬而未决的问题。本文提出一个基于 π0 的演进模型 π0.5,它利用异构任务的协同训练来实现广泛的泛化。π0.5 使用来原创 2025-04-28 00:15:00 · 1327 阅读 · 0 评论 -
模态链:利用视觉-语言模型从多模态人类视频中学习操作程序
25年4月来自谷歌 DeepMind 和斯坦福大学的论文“Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models”。从人类视频中学习执行操作任务,是一种很有前景的机器人教学方法。然而,许多操作任务需要在执行过程中改变控制参数,例如力度,而单靠视觉数据无法捕捉到这些参数。本研究利用传感设备(例如测量人体肌肉活动的臂环和录制声音的麦克风)来捕捉人体操作原创 2025-04-27 00:15:00 · 942 阅读 · 0 评论 -
通过模仿学习实现机器人灵巧操作:综述(下)
25年4月来自天津大学、山东大学、瑞士ETH、南方科技大学、通用 AI 国家重点实验室、爱丁堡大学和中科院自动化所的论文“Dexterous Manipulation through Imitation Learning: A Survey”。灵巧操作是指机械手或多指末端执行器通过精确、协调的手指运动和自适应力调制,熟练地控制、重定位和操纵物体的能力,能够实现类似于人手灵巧性的复杂交互。随着机器人技术和机器学习的最新进展,人们对这些系统在复杂和非结构化环境中运行的需求日益增长。由于灵巧操作的高维度和复杂的原创 2025-04-26 00:15:00 · 946 阅读 · 0 评论 -
通过模仿学习实现机器人灵巧操作:综述(上)
25年4月来自天津大学、山东大学、瑞士ETH、南方科技大学、通用 AI 国家重点实验室、爱丁堡大学和中科院自动化所的论文“Dexterous Manipulation through Imitation Learning: A Survey”。灵巧操作是指机械手或多指末端执行器通过精确、协调的手指运动和自适应力调制,熟练地控制、重定位和操纵物体的能力,能够实现类似于人手灵巧性的复杂交互。随着机器人技术和机器学习的最新进展,人们对这些系统在复杂和非结构化环境中运行的需求日益增长。由于灵巧操作的高维度和复杂原创 2025-04-26 00:15:00 · 1321 阅读 · 0 评论 -
机器人操作中的生成式 AI:综述(下)
25年3月来自香港大学、香港理工、香港科大、浙大和清华大学的论文“Generative Artificial Intelligence in Robotic Manipulation: A Survey”。本综述全面回顾机器人操作领域生成学习模型的最新进展,并探讨该领域的关键挑战。机器人操作面临着关键瓶颈,包括数据不足和数据采集效率低下、长期和复杂任务规划,以及在不同环境下实现稳健策略学习性能所需的多模态推理能力等重大挑战。为了应对这些挑战,本综述介绍几种生成模型范式,包括生成对抗网络 (GAN)、变分自原创 2025-04-25 00:15:00 · 1312 阅读 · 0 评论 -
机器人操作中的生成式 AI:综述(上)
25年3月来自香港大学、香港理工、香港科大、浙大和清华大学的论文“Generative Artificial Intelligence in Robotic Manipulation: A Survey”。本综述全面回顾机器人操作领域生成学习模型的最新进展,并探讨该领域的关键挑战。机器人操作面临着关键瓶颈,包括数据不足和数据采集效率低下、长期和复杂任务规划,以及在不同环境下实现稳健策略学习性能所需的多模态推理能力等重大挑战。原创 2025-04-25 00:15:00 · 1838 阅读 · 0 评论 -
ChatBEV:一种理解 BEV 地图的可视化语言模型
25年3月来自上海交大、上海AI实验室、同济大学和MAGIC的论文“ChatBEV: A Visual Language Model that Understands BEV Maps”。交通场景理解对于智能交通系统和自动驾驶至关重要,可确保车辆安全高效地运行。虽然 VLM 的最新进展已显示出整体场景理解的前景,但 VLM 在交通场景中的应用(尤其是使用 BEV 地图)仍未得到充分探索。现有方法通常受任务设计和数据量限制的影响,从而阻碍全面的场景理解。为了应对这些挑战,推出 ChatBEV-QA,这是一原创 2025-04-24 00:15:00 · 1314 阅读 · 0 评论 -
Scenario Dreamer:用于生成驾驶模拟环境的矢量化潜扩散模型
25年3月来自加拿大 Mila AI研究院、蒙特利尔大学、蒙特利尔理工、普林斯顿、加拿大 CIFAR AI Chair 计划和 Torc 机器人公司的论文“Scenario Dreamer: Vectorized Latent Diffusion for Generating Driving Simulation Environments”。Scenario Dreamer,是一个完全数据驱动的自动驾驶汽车规划生成模拟器,它可以生成初始交通场景(包括车道图和智体边框)和闭环智体行为。现有的生成驾驶模拟环原创 2025-04-23 00:15:00 · 1039 阅读 · 0 评论 -
ORION:通过视觉-语言指令动作生成的一个整体端到端自动驾驶框架
25年3月来自华中科技和小米电动汽车的论文“ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation”。由于因果推理能力有限,端到端 (E2E) 自动驾驶方法仍然难以在交互式闭环评估中做出正确决策。当前的方法试图利用视觉-语言模型 (VLM) 强大的理解和推理能力来解决这一难题。然而,由于语义推理空间和动作空间中纯数值轨迹输出之间的差距,很少有用于 E原创 2025-04-22 00:15:00 · 1162 阅读 · 0 评论 -
CoT-Drive:利用 LLM 和思维链提示实现自动驾驶的高效运动预测
25年3月来自澳门大学和 MIT 的论文“CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting”。准确的运动预测对于安全的自动驾驶 (AD) 至关重要。本研究提出 CoT-Drive,这是一种利用大语言模型 (LLM) 和思维链 (CoT) 提示方法来增强运动预测的创新方法。本文引入一种师生知识蒸馏策略,将 LLM 的高级场景理解能力有效地迁移到轻量级原创 2025-04-21 00:15:00 · 1226 阅读 · 0 评论 -
DriveGen:面向无限多样化交通场景的大模型
25年3月来自上海交大和重庆长安汽车公司的论文“DriveGen: Towards Infinite Diverse Traffic Scenarios with Large Models”。微观交通模拟已成为自动驾驶训练和测试的重要工具。尽管近期数据驱动的方法推进逼真行为的生成,但它们的学习仍然主要依赖于单一的真实世界数据集,这限制其多样性,从而阻碍下游算法的优化。本文提出 DriveGen,一个交通模拟框架,它拥有大模型,可以生成更多样化的交通数据,并支持进一步的定制化设计。DriveGen 包原创 2025-04-21 00:15:00 · 855 阅读 · 0 评论 -
OPAL:机器人学习中编码物理系统的因果理解
25年4月来自Apiary Systems的论文“OPAL: Encoding Causal Understanding of Physical Systems for Robot Learning”。OPAL(带语言的操作物理智体),是一种视觉-语言-动作架构,它将拓扑约束引入机器人控制的流匹配中。为此,进一步引入拓扑注意机制。其方法将动作序列建模为具有非平凡约束的拓扑结构化表示。在 10 个复杂操作任务中的实验结果表明,OPAL 的性能优于之前的方法,包括 Octo、OpenVLA 和 π0。原创 2025-04-18 00:15:00 · 1115 阅读 · 0 评论 -
人形机器人动作策略 ∼ 人类动作策略
25年3月来自UCSD、CMU、西雅图 UW、MIT 和 Apple 公司的论文“Humanoid Policy ∼ Human Policy”。利用多样化数据训练人形机器人的操作策略,可以增强其在跨任务和平台的鲁棒性和泛化能力。然而,仅从机器人演示中学习需要耗费大量的人力,需要昂贵的远程数据收集,而这些数据难以扩展。本文研究一种更具可扩展性的数据源——以自我为中心的人类演示,将其用作机器人学习的跨具身训练数据。从数据和建模的角度弥合人形机器人与人类之间的就是差距。其收集一个以自我为中心的、面向任务的数原创 2025-04-17 00:15:00 · 1869 阅读 · 0 评论 -
Being-0:具有视觉-语言模型和模块化技能的人形机器人智体
25年3月来自北大、北京智源和 BeingBeyond 的论文“Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills”。构建能够在现实世界具身任务中达到人类水平表现的自主机器人智体,是人形机器人研究的终极目标。近期,基于基础模型 (FM) 的高级认知和人形机器人的低级技能开发取得显著进展。然而,直接组合这些组件通常会导致鲁棒性和效率下降,因为在长周期任务中会出现复合误差,并且不同模块的延迟各不相同原创 2025-04-17 00:15:00 · 1063 阅读 · 0 评论 -
FP3:机器人操作的3D基础策略
25年3月来自清华大学、上海 AI 实验室、上海姚期智研究院和 UCSD 的论文“FP3: A 3D Foundation Policy for Robotic Manipulation”。继自然语言处理和计算机视觉领域取得成功后,在大规模多任务数据集上预训练的基础模型,在机器人领域也展现出巨大潜力。然而,现有的大多数机器人基础模型,仅仅依赖于二维图像观测,而忽略三维几何信息,而这些信息对于机器人感知和推理三维世界至关重要。本文的 FP3,是一个用于机器人操作的大规模三维基础策略模型。FP3 基于可扩展原创 2025-04-16 00:15:00 · 1133 阅读 · 0 评论 -
EMMOE:开放环境中具身移动操控的综合基准
25年3月来自浙大、UIUC 和西雅图华盛顿大学的论文“EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments”。开发由自然语言控制的自主家用机器人一直是人类的追求。虽然大语言模型 (LLM) 和具身智能的进步使这一目标更近了一步,但仍存在一些挑战:缺乏针对更复杂机器人任务的统一基准、评估方法,以及指标有限、LLM 和移动操控轨迹之间的数据不兼容。为了解决这些问题,引入开放环境中的具身移原创 2025-04-15 00:15:00 · 1561 阅读 · 0 评论 -
TLA:用于接触-丰富操作的触觉-语言-动作模型
25年3月来自三星中国研发中心、中科院自动化所和北京智源的论文“TLA: Tactile-Language-Action Model for Contact-Rich Manipulation”。视觉-语言模型已取得显著进展。然而,在语言条件下进行机器人操作以应对接触-密集型任务方面,仍未得到充分探索,尤其是在触觉感知方面。触觉-语言-动作 (TLA) 模型,通过跨模态语言基础有效地处理连续触觉反馈,从而能够在接触-密集型场景中实现稳健的策略生成。此外,构建一个包含 24000 对触觉动作指令数据的综合原创 2025-04-15 00:15:00 · 1577 阅读 · 0 评论 -
评估通才机器人策略的分类法
25年3月来自斯坦福和谷歌的论文“A Taxonomy for Evaluating Generalist Robot Policies”。机器人中机器学习,有望将泛化能力扩展到新的任务和环境。受此启发,许多近期研究致力于扩展机器人数据收集,并开发更大规模、更具表现力的策略来实现这一目标。但是,如何在实践中衡量策略泛化目标的进展呢?评估和量化泛化能力,是现代机器人技术的“西部原野”,每项研究都提出并测量不同类型的泛化能力,这些能力通常难以复现。本研究目标是:(1) 全面细致地概述在机器人操作中重要的泛化原创 2025-04-13 00:15:00 · 1665 阅读 · 0 评论 -
从 LLM 到动作:潜代码作为分层机器人控制的桥梁
24年7月来自伯克利分校和 Meta 公司的论文“From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control”。长期以来,机器人的分层控制一直受到一个困扰:需要一个定义明确的接口层,以便在高级任务规划器和低级策略之间进行通信。随着LLM的出现,语言逐渐成为一种有前景的接口层。然而,其还是存在一些局限性。并非所有任务都能分解成易于用自然语言表达的步骤(例如,表演一段舞蹈)。此外,由于域迁移和灾难性遗忘,它使得基于具原创 2025-04-13 00:15:00 · 743 阅读 · 0 评论 -
ZeroMimic:从网络视频中蒸馏机器人操作技能
25年3月来自费城宾大的论文“ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos”。机器人操作领域的许多最新进展都来自模仿学习,但这些进展很大程度上依赖于模仿一种特别难以获得的演示形式:在同一房间内用同一机器人收集的演示,这些演示与训练策略在测试时必须处理的物体相同。相比之下,已经存在大量预先录制的人类视频数据集,展示了野外的操作技能,其中包含对机器人有价值的信息。是否有可能从这些数据中提取出有用的机器人技能策略库,而无需对原创 2025-04-10 00:15:00 · 1313 阅读 · 0 评论 -
具身推理器:协同视觉搜索、推理和行动,实现具身交互任务
25年3月来自浙大、中科院软件所、中科院大学、阿里达摩院、南京软件所、南邮和河海大学的论文“Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks”。深度思维模型的最新进展,已在数学和编码任务上展现出卓越的推理能力。然而,它们在需要通过图像动作交错轨迹与环境持续交互的具身域中的有效性仍未得到充分探索。本文提出了具身推理器,该模型将 o1 式推理扩展到交互式具身搜索原创 2025-04-09 00:15:00 · 1002 阅读 · 0 评论 -
MPDrive:利用基于标记的提示学习提高自动驾驶的空间理解能力
25年4月来自南方科技大学、百度、英国 KCL和琶洲实验室(广东 AI 和数字经济实验室)的论文“MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving”。自动驾驶视觉问答(AD-VQA)旨在根据给定的驾驶场景图像回答与感知、预测和规划相关的问题,这在很大程度上依赖于模型的空间理解能力。先前的工作通常通过坐标的文本表示来表达空间信息,导致视觉坐标表示和文本描述之间存原创 2025-04-09 00:15:00 · 1738 阅读 · 0 评论 -
OpenDriveVLA:通过大型视觉-语言-动作模型实现端到端自动驾驶
25年3月来自慕尼黑工大和慕尼黑大学的论文“OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model”。OpenDriveVLA,一种专为端到端自动驾驶而设计的视觉-语言-动作 (VLA) 模型。OpenDriveVLA 以开源预训练大型视觉-语言模型 (VLM) 为基础,以 3D 环境感知、自车状态和驾驶员命令为条件生成可靠的驾驶动作。为了弥合驾驶视觉表示和语言嵌入之间的模态差原创 2025-04-06 17:08:00 · 1313 阅读 · 0 评论