未来已来?斯坦福李飞飞教授让多模态大模型掌握空间感知能力!

今天给大家带来斯坦福李飞飞教授最新的大模型论文,论文已开源。

【论文标题】

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

【论文链接】https://arxiv.org/pdf/2412.14171v1

1

摘要

人类拥有视觉空间智能,可以通过连续的视觉观察记忆空间。然而在百万规模的视频数据集上训练的多模态大语言模型(MLLMs)也能从视频中拥有 “空间思维 ”吗?

本文提出了一个新颖的基于视频的视觉空间智能基准(VSI-Bench),其中包含 5,000 多对问答,结果发现 MLLMs 表现出了具有竞争力的视觉空间智能,尽管这种智能还达不到人类的水平。

本文对模型进行了探究,以表达它们是如何在语言和视觉上进行空间思维的,结果发现,虽然空间推理能力仍然是 MLLMs 达到更高基准性能的主要瓶颈,但在这些模型中确实出现了局部世界模型和空间意识。

值得注意的是,目前流行的语言推理技术(如思维链、自洽性、思维树)无法提高成绩,而在回答问题时明确生成认知地图却能增强 MLLMs 的空间距离能力。

2

背景

在购买家具时,我们常常会尝试回忆自家客厅的布局,以想象心仪的橱柜是否合适。估算距离并非易事,然而人类只需观看一次,就能在脑海中重构空间,回忆起房间里的物品、它们的位置和大小。我们生活在一个感官丰富的三维世界中,视觉信号环绕着我们,使我们能够感知、理解并与之互动。

视觉空间智能需要感知和在心理上操纵空间关系;它需要诸多能力,包括关系推理以及在自我中心和客体中心视角之间转换的能力。虽然大语言模型(LLMs)在语言智能方面取得了进展,但视觉空间智能仍未得到充分探索。

MLLMs整合了语言和视觉,在开放式对话和网络代理等实际任务中展现出强大的思考和推理能力。

3

贡献

为了在视觉空间领域提升这一智能,提出了VSI-Bench,这是一个基于视频的基准测试,包含近290个真实室内场景视频中的5000多个问答对。视频数据通过捕捉连续的时间输入,既与我们观察世界的方式相似,又能实现比静态图像更丰富的空间理解和推理。

在VSI-Bench上对开源和闭源模型进行评估后发现,尽管模型与人类之间存在较大的性能差距,但MLLMs在应对视频理解、文本理解和空间推理的挑战时,展现出了新兴的视觉空间智能。

为了分析模型行为,并受双编码理论的启发,该理论认为语言和视觉处理是不同但互补的,本文促使选定的模型进行自解释(语言层面)和生成认知地图(视觉层面)。

对自解释的分析表明,与视觉感知、语言智能或时间处理相比,空间推理是VSI-Bench上性能薄弱的主要因素。“认知地图”代表环境的内部布局,能够评估MLLMs的隐式空间世界模型,并发现MLLMs构建了强大的局部模型,但全局模型较弱。

此外,标准的语言推理技术未能提高基准测试的性能。然而,在问答过程中明确生成认知地图可提高MLLMs的空间距离能力。

即使对人类来说,表达视觉空间智能也是困难的(且通常是零碎的)。通过这项工作,旨在鼓励社区探索用视觉空间智能为前沿模型奠定基础,并为这一方向铺平道路并提供启示。

4

VSI-Bench

为了从第一人称视角视频定量评估 MLLMs 的视觉空间智能,作者团队引入了 VSI-Bench。它由超过 5000 个问答对组成,这些问答对源自 288 个真实视频。

这些视频来自公共室内 3D 场景重建数据集 ScanNet、ScanNet++ 和 ARKitScenes 的验证集,涵盖住宅、办公、工厂等多种环境及多个地理区域。

利用这些现有数据集的对象级注释进行问题生成,并通过迭代审查确保了基准的高质量,减少了问题歧义及错误注释。

VSI-Bench 包含三种类型的八项任务:

a.配置任务(如物体计数、相对距离、相对方向、路线规划)测试模型对空间配置的理解;

b.测量估计任务(如物体大小、房间大小、绝对距离)对具身智能体有重要价值;

c.时空任务(如出现顺序)则测试模型对视频中空间的记忆。

基准构建

数据收集与统一:标准化各数据集为统一元信息结构,汇总 ScanNet、ScanNet++ 和 ARKitScenes 数据集,将其视频处理为统一格式(分辨率、帧率等),并统一注释结构为包含数据集、视频路径等属性的格式,精心筛选类别并进行类别重映射以确保一致性。

问答对生成:多数问答对通过元信息和问题模板自动注释(路线规划任务由人工注释),为每个任务精心设计问题模板并提供人工注释指南,根据任务特点生成不同类型的问答对(如选择题或数值题),并对问题选项和答案进行处理(如采样、避免歧义等)。

人工循环质量审查:尽管数据源于人工注释且有精心设计的生成方法,但仍存在错误。实施贯穿基准构建的人工验证协议,审查人员标记问题,追溯错误源并采取纠正措施(如移除问题数据、调整元信息或模板等),迭代更新基准直至满足质量标准。

5

VSI-Bench评估

1 评估设置

基准模型:全面评估 15 个支持视频的MLLMs,涵盖不同模型家族、参数规模和训练方法。包括专有模型 Gemini1.5 和 GPT - 4o,以及开源模型如 InternVL2、ViLA 等系列。所有评估在零样本设置下进行,使用模型默认提示,采用贪婪解码确保可重复性。

指标设计:根据问题答案类型(文本或数值),任务采用选择题答案(MCA)或数值答案(NA)格式。MCA 任务使用准确率(ACC),NA 任务引入平均相对准确率(MRA),通过计算模型预测与真实答案相对误差率来评估预测准确性,MRA 对数值预测与真实值的相似性提供更可靠和有区分度的测量。

基线水平:设定两个基线,Chance Level (Random) 为 MCA 任务随机选择准确率,Chance Level (Frequency) 为选择最频繁答案的准确率,以识别因答案长尾分布或不平衡多项选择可能导致的性能提升。

2 主要结果

人类水平表现:人类评估者在基准测试中平均准确率达 79%,在配置和时空任务上表现卓越(94% - 100%),表明人类的直观性。在测量任务上,人类与最佳 MLLM 的性能差距较小,意味着 MLLMs 在定量估计任务上可能有相对优势。

专用 MLLMs:领先的专用模型 Gemini1.5 Pro 虽与人类有显著差距,但结果具有竞争力,远超基线水平,在绝对距离和房间大小估计等任务上接近人类水平。考虑到人类在理解物理世界方面的经验,而 MLLMs 仅在二维数字数据上训练,这一表现值得关注。

开源 MLLMs:顶级开源模型如 LLaVA - NEXT - Video - 72B 和 LLaVA - OneVision - 72B 表现与闭源模型相当,仅落后领先的 Gemini1.5 Pro 4% - 5%。然而,多数开源模型(7/12)低于基线水平,表明其视觉空间智能存在显著局限。

盲评结果:对比 MLLMs 与 “Chance Level (frequency)” 和 “Vision Disabled”(盲测)结果,发现视频对 VSI - Bench 至关重要,盲测模型表现低于基线。MLLMs 在绝对距离估计、路线规划和相对方向任务上,无论是否启用视觉,都难以超越基线水平,凸显这些任务的难度。在物体大小任务上,“Vision Disabled” 模型因语言模型训练中的常识知识而优于基线。

6

多模态大语言模型如何在语言层面进行空间思考

为深入理解模型在视觉空间智能任务中的成败原因,剖析其能力构成,本章从语言层面探究MLLMs如何进行空间思考。

1 通过自解释进行探究

自解释是理解模型生成响应的常用方法,类似于传统模型解释技术(如 LIME 显著图),广泛应用于分析语言模型行为。研究以在 VSI-Bench 中表现最佳的 Gemini-1.5 Pro 为例,随机抽取 163 个错误答案,促使模型解释预测答案,再人工详细审查。

案例研究:成功与错误案例的自解释表明,MLLMs 在空间思考时,视频理解能力强,能准确描述时间戳,推理过程合理,还可能构建隐式世界模型,利用全局空间上下文和推理得出正确结论。但在错误案例中,也存在如自我中心 - 客体中心转换和关系推理等视觉空间能力缺陷,如在路线规划任务中,模型可能因遵循视频中的自我中心视角而非构建客体中心视角,导致方向判断错误。

错误分析:对 Gemini-1.5 Pro 在 VSI-Bench(tiny)上的错误进行量化分析,将错误归为四类:视觉感知错误(源于未识别物体或错误分类)、语言智能错误(由逻辑、数学推理或语言理解缺陷导致)、关系推理错误(包括空间关系推理错误,如距离、方向和大小判断)、自我中心 - 客体中心转换错误(因错误的客体中心空间布局或视角转换不当)。结果显示,约 71% 的错误源于空间推理,表明空间推理是 MLLM 在 VSI-Bench 上性能的主要瓶颈。

2 思维链方法在视觉空间任务中的局限性

提示技术虽能提升大模型在多种任务中的推理和问题解决能力,但在 VSI-Bench 中,研究发现三种常见的语言提示技术(Zero-Shot Chain-of-Thought、Self-Consistency w/ CoT、Tree-of-Thoughts)均导致性能下降。

Zero-Shot CoT 和 ToT 使平均性能降低约 4%,Self-Consistency 虽稍好但仍低于无提示基线 1.1%。这可能是因为这些技术在处理视觉空间任务时,对模型的空间推理能力要求较高,而当前模型在这方面存在不足。

在某些任务(如出现顺序和绝对距离估计)中,语言提示技术的单边改进可由其较高比例的语言智能错误解释。同时,Zero-Shot CoT 在一般视频理解基准 VideoMME 上能提升 1.6% 的性能,表明这些语言提示技术在语言推理和一般视觉任务中有效,但对空间推理有害。

7

多模态大语言模型如何在视觉层面进行空间思考

人类在进行空间推理时会下意识构建空间心理表征,受此启发探究MLLMs如何记忆空间,从视觉层面分析其空间思考方式。

1 通过认知地图进行探究

认知地图是记忆特定环境中物体的成熟框架,研究促使 MLLMs 使用认知地图表达对所见空间的内部表示。以 Gemini-1.5 Pro 为例,让其根据视频输入预测物体中心位置(在 10×10 网格内),并通过评估地图中物体间欧几里得距离来定量分析认知地图。

实验结果与分析:MLLMs 在认知地图中定位相邻物体的准确率达 64%,显示出较强的局部空间感知能力。然而,随着物体间距离增加,准确率显著下降,表明 MLLMs 从给定视频中形成的是一系列局部世界模型,而非统一的全局模型。这可能是因为从离散视频帧构建全局空间表示对 MLLMs 来说具有挑战性,尽管人类在这方面也可能面临困难,但可能更擅长构建准确的全局空间表示。

2 通过认知地图提升距离推理能力

鉴于 MLLMs 在记忆空间时的局部感知能力,以及心理意象对人类空间思考的重要性,研究探讨生成和使用认知地图能否提升 MLLMs 在 VSI-Bench 相对距离任务中的空间推理能力,即局部距离感知能否转化为更好的距离回忆和推理。

实验设置与结果:促使 Gemini-1.5 Pro 根据视频和问题生成认知地图,然后利用该地图回答问题。

结果表明,使用心理意象使 MLLM 的相对距离准确率提高了 10%,使用真实认知地图时准确率提高 20% - 32%,这强调了构建准确场景心理地图的重要性,尽管这只是解决问题的一部分,但表明构建心理空间世界模型或认知地图是提升 MLLMs 视觉空间推理能力的有价值的预训练任务或解决方案。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

### 飞飞在AI代理方面的工作概述 飞飞作为斯坦福大学教授及计算机视觉领域的权威学者,其研究工作涵盖了广泛的机器学习应用领域。尽管主要贡献集中在图像识别和计算机视觉上,但这些技术的发展对于构建更智能的AI代理至关重要。 #### 计算机视觉的进步推动AI代理发展 飞飞领导下的ImageNet项目极大地促进了卷积神经网络(CNNs)的研究和发展[^1]。这一进步不仅限于静态图片分析,也为动态环境感知提供了基础支持,使得AI代理能够更好地理解周围世界并作出反应。 #### 多模态交互能力增强 除了视觉输入外,现代AI代理还需要处理来自不同感官的信息流。飞飞团队探索了多模态融合的方法论,即如何有效地整合视听觉等多种类型的信号来提升机器人或其他形式的人工智能系统的认知水平[^2]。这种跨学科的努力有助于创建更加自然流畅的人机互动体验。 #### 社会影响考量纳入模型设计 值得注意的是,在推进技术创新的同时,飞飞也强调伦理和社会责任的重要性。这体现在她倡导将公平性、透明度等因素融入到AI系统的设计原则之中,从而确保这类先进技术能造福全人类而非加剧社会不平等现象[^3]。 ```python # Python代码示例:使用预训练CNN提取特征向量 from tensorflow.keras.applications import VGG16 model = VGG16(weights='imagenet', include_top=False) def extract_features(image_path): img = load_img(image_path, target_size=(224, 224)) x = img_to_array(img) x = np.expand_dims(x, axis=0) x = preprocess_input(x) features = model.predict(x) return features.flatten() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值