Intuitive physics understanding emerges from self-supervised pretraining on natural videos
文章概括
引用:
@article{garrido2025intuitive,
title={Intuitive physics understanding emerges from self-supervised pretraining on natural videos},
author={Garrido, Quentin and Ballas, Nicolas and Assran, Mahmoud and Bardes, Adrien and Najman, Laurent and Rabbat, Michael and Dupoux, Emmanuel and LeCun, Yann},
journal={arXiv preprint arXiv:2502.11831},
year={2025}
}
Garrido, Q., Ballas, N., Assran, M., Bardes, A., Najman, L., Rabbat, M., Dupoux, E. and LeCun, Y., 2025. Intuitive physics understanding emerges from self-supervised pretraining on natural videos. arXiv preprint arXiv:2502.11831.
原文: https://arxiv.org/pdf/2502.11831
代码、数据和视频: https://github.com/facebookresearch/jepa-intuitive-physics
系列文章:
请在
《
《
《文章
》
》
》 专栏中查找
宇宙声明!
引用解析部分属于自我理解补充,如有错误可以评论讨论然后改正!
我们研究了在通用深度神经网络模型中直观物理理解的出现,这些模型经过训练以预测自然视频中被遮掩的区域。利用“违背期望”框架,我们发现,在学习到的表征空间中进行预测的视频模型,能够展示对多种直观物理属性的理解,例如物体永恒性和形状一致性。相比之下,在像素空间中进行视频预测的模型,以及通过文本推理的多模态大型语言模型,其表现更接近随机水平。我们对这些架构的比较表明,同时学习一种抽象表征空间并预测感官输入的缺失部分(类似于预测编码)就足以获得对直观物理的理解;即便是仅在一周独特视频上训练的模型,也能达到高于随机的表现。这一发现挑战了“核心知识”——一组帮助理解世界的先天系统——必须被硬编码才能发展直观物理理解的观点。
违背预期范式(Violation-of-Expectation Framework)详解
基本概念:违背预期范式(VoE)是一种实验方法,主要用于研究人类(尤其是婴儿)或动物对物理规律、社会规则或数学逻辑的内在预期。它的核心逻辑是:如果被试(如婴儿)对某个事件存在预期,那么当他们看到违背这种预期的事件时,会表现出异常的注意力(如注视时间更长),从而间接反映他们具备某种“隐性知识”。
对物理学的直观理解是人类认知的基础:我们期望物体表现出可预测的行为,即不会突然出现或消失,不会穿过障碍物,也不会任意改变形状或颜色。这种对物理世界的基本认知不仅在人类婴儿中得到证实(Piaget, 1954;Baillargeon和DeVos, 1991;Baillargeon等, 1992;Baillargeon和Hanko‑Summers, 1990;Spelke等, 1995),也在灵长类(Cacchione和Krist, 2004;Mendes等, 2007)、海洋哺乳动物(Singer和Henderson, 2015;Herman, 2010)、鸦科鸟类(Bird和Emery, 2009;Taylor等, 2012)以及小鸡(Vallortigara, 2012;Wood, 2013)中有所记录。这被视为“核心知识(或核心系统)”假说的证据。该假说认为人类配备了一套先天或早期发育的进化古老计算系统,专门用于表征和推理世界的基本属性:对象、空间、数字、几何、代理等(Baillargeon, 2008;Spelke和Kinzler, 2007;Spelke, 2000;Carey, 2000)。在追求构建具有高级人类水平智能的机器过程中,快速发展的人工智能(AI)系统往往在语言、编码或数学等高级认知任务上超越人类表现(OpenAI, 2024),但在常识性物理理解方面却存在困难(Riochet等, 2022;Weihs等, 2022;Jassim等, 2024;Bisk等, 2020;Benchekroun等, 2023;Bansal等, 2024;Bear等, 2021),这说明了Moravec悖论(Moravec, 1988):那些对生物有机体而言微不足道的任务,对人工系统却可能异常困难,反之亦然。
旨在提高直观物理理解的AI模型开发的先前工作可分为两类:结构化模型和基于像素的生成模型。
- 结构化模型利用手工编码的对象抽象表征及其在欧几里得三维空间中的关系(Battaglia等, 2013;Watters等, 2017),从而产生一个强大的心理“游戏引擎”,能够捕捉人类的物理直觉(Ullman等, 2017)。这一类模型可以被视为核心知识假说的可能计算实现(Spelke和Kinzler, 2007;Spelke, 2000)(弱化版本的结构化模型使用对象掩码和深度线索而非完整的三维重建,例如(Riochet等, 2020))。
- 基于像素的生成模型则采取完全相反的观点,否认任何硬编码抽象的必要性。相反,它们提出了一种通用学习机制,即基于过去的感官输入(例如图像)重建未来的感官输入(Lerer等, 2016;Goyal等, 2017a;Finn等, 2016)。
结构化模型 vs 基于像素的生成模型:原理、区别与实例
一、结构化模型(Structured Models)
1. 核心思想
- 结构化模型认为,物理世界的理解需要显式构建物体的抽象表征(如位置、形状、质量等),并通过物理规则(如牛顿力学、碰撞定律)模拟这些表征的相互作用。
- 它模仿人类的“心理引擎”——人类看到物体时,会自动在脑中构建三维模型并预测其行为。
2. 技术实现
- 手工编码的物体属性:每个物体被表示为带有属性的向量(如位置、速度、材质)。
- 物理规则驱动:通过预定义的物理方程(如动量守恒)计算物体动态。
- 弱结构化变体:使用深度估计或物体掩码(而非完整3D重建)简化计算。
3. 示例
- 弹球模拟:
- 结构化模型:将球表示为
{位置:(x,y), 速度:(vx,vy), 半径:r}
,地面表示为刚体平面。- 动态计算:当球触地时,根据弹性系数更新速度
vy = -vy * elasticity
。- 输出:直接生成球的新位置,无需观察像素。
4. 优势与局限
- 优势:
- 可解释性强:物理规则明确,因果链清晰。
- 数据效率高:无需海量数据,依赖先验知识。
- 局限:
- 灵活性差:无法处理未预定义的物理现象(如流体)。
- 依赖人工设计:物体属性和规则需专家定义。
二、基于像素的生成模型(Pixel-Based Generative Models)
1. 核心思想
- 生成模型认为,物理理解可通过端到端学习像素级规律实现,无需显式物体或规则。
- 它假设:“所见即所学”——模型从像素变化中自动捕捉隐含的物理规律。
2. 技术实现
- 输入输出均为像素:直接处理图像序列(如视频帧)。
- 黑盒学习:通过深度网络(如CNN、Transformer)建模像素间的时空关系。
- 预测未来帧:根据历史帧生成下一帧图像。
3. 示例
- 多米诺骨牌倒塌预测:
- 输入:前5帧骨牌依次被推倒的像素视频。
- 模型:训练一个视频预测网络(如PredNet)。
- 输出:预测第6帧的像素图像,显示后续骨牌的倒下方向。
- 关键:模型内部可能隐含“连锁反应”规律,但无显式骨牌位置或力的计算。
4. 优势与局限
- 优势:
- 无需先验知识:自动发现数据中的规律(如非刚性物体变形)。
- 通用性强:同一模型可处理多种任务(如流体、碰撞)。
- 局限:
- 数据饥渴:需大量标注视频。
- 可解释性差:难以追溯预测的物理依据。
三、核心区别对比
维度 结构化模型 基于像素的生成模型 知识来源 依赖先验物理规则(人工编码) 从像素数据中自动学习规律 表征形式 显式物体属性(位置、速度等) 隐式特征(神经网络激活值) 可解释性 高(规则透明) 低(黑盒模型) 泛化能力 限于预定义规则(如无法处理软体) 强(可适应新物体类型) 数据需求 低(少量样本即可运行) 高(需大量视频数据) 计算效率 高(基于解析式计算) 低(依赖GPU密集型训练)
四、总结
- 结构化模型像“物理学家”:用公式和逻辑推演世界。
- 生成模型像“艺术家”:凭直觉描绘可能性。
在此,我们探索第三类模型,它位于上述两种对立观点之间的中间地带,整合了两者的特征:联合嵌入预测架构(Joint Embedding Predictive Architectures,JEPAs)(LeCun, 2022;Bardes et al., 2024)。作为结构化模型,JEPA 假设对未来世界状态的预测应在模型学习到的抽象内部表征中完成,而不是在低级别的、基于像素的预测或生成层面。然而,与结构化模型不同,JEPA 将表征的学习交由算法自身,而非手工编码。这种在表征空间中进行预测的机制,与认知神经科学中的预测编码假说相一致(Hohwy, 2013;Rao 和 Ballard, 1999;Clark, 2013)。在这里,我们研究了该架构的视频版本 V‑JEPA(Bardes et al., 2024),该模型通过在表征空间中重建视频中被遮掩的部分来学习表征视频帧。我们依靠违背期望框架来探测直观物理理解,无需任何特定任务的训练或适应(Smith et al., 2019;Riochet et al., 2022;Piloto et al., 2022;Riochet et al., 2020)。通过提示模型想象视频的(表征)未来,并将其预测与视频实际观察到的未来进行比较,我们获得了可量化的惊讶度度量,用于检测直观物理概念的违背情况。
“JEPA 将表征的学习交由算法自身,而非手工编码” 的含义
核心解释:
这句话的意思是:JEPA(联合嵌入预测架构)通过数据驱动的方式,让模型自动从数据中学习如何提取和表达关键特征(表征),而不是依赖人工预先定义的特征规则。这体现了从“基于人工先验”到“基于数据自发现”的范式转变。对比理解:手工编码 vs 算法自学习
维度 手工编码(传统方法) 算法自学习(JEPA) 特征定义 人工设计特征(如边缘检测滤波器、颜色直方图) 模型自动发现数据中的隐含模式(如物体形状、运动规律) 灵活性 局限于专家知识,难以适应新任务 自动适应数据分布,可处理未知场景 示例 人脸识别中手动定义“眼睛间距”为特征 模型自动发现“面部轮廓”和“五官相对位置”为关键特征 具体例子
手工编码的局限性: 假设要训练一个“猫狗分类器”:
- 手工编码:人工定义“耳朵形状”(尖耳为猫,圆耳为狗)和“鼻子大小”为特征。
- 问题:遇到折耳猫或斗牛犬时,规则失效。
JEPA的自动学习:
- 输入:大量猫狗图片。
- 过程:JEPA自动学习到“胡须纹理”“瞳孔形状”等区分性特征。
- 结果:即使面对新品种动物,模型仍能基于学习到的表征分类。
深层意义
- 摆脱人类认知局限:手工编码受限于设计者的知识盲区(如早期医学影像分析可能忽略微小纹理特征)。
- 发现潜在规律:算法可能捕捉到人类未察觉的模式(如天文数据中的隐藏关联)。
- 可扩展性:同一框架可应用于图像、语音、文本等多模态数据,无需重新设计特征。
表征空间(Representation Space) 是数据经过编码器(如神经网络)转换后的抽象数学空间。在此空间中:
- 数据点:原始数据(如图像、文本)被映射为向量(如128维数组)。
- 空间关系:向量间的距离或方向反映语义相似性(如“猫”的向量彼此靠近,与“狗”向量远离)。
我们发现 V‑JEPA 能够准确且始终如一地区分遵循物理定律的视频与违反物理定律的视频。具体而言,当需要对一对视频进行物理合理性分类——其中一个视频合理,另一个不合理——时,经过自然视频训练的 V‑JEPA 模型在 IntPhys 基准上实现了 98% 的零样本准确率(Riochet 等,2022),在 InfLevel 基准上实现了 62% 的零样本准确率(Weihs 等,2022)(这里“零样本”既指 V‑JEPA 模型并未专门针对区分物理合理与不合理视频的任务进行训练,也指模型未使用任何基准数据进行训练)。令人惊讶的是,我们发现多模态大型语言模型(Wang 等,2024;Reid 等,2024)以及在像素空间进行预测的可比视频预测方法(Wang 等,2023)的表现则接近随机水平。
为更好地理解哪些设计选择促成了 V‑JEPA 对直观物理理解的产生,我们消融了训练数据、预训练预测目标(即从何预测何物)和模型规模三方面的影响。虽然我们观察到变更上述各组件会影响性能,但所有 V‑JEPA 模型的表现均显著高于随机水平,包括一个拥有1.15亿参数的小型模型,或一个仅在一周独特视频上训练的模型,这表明在学习到的表征空间中进行视频预测是获取直观物理理解的稳健目标。
测量直观物理理解
违背期望: 违背期望范式起源于发展心理学(Margoni et al., 2024;Baillargeon et al., 1985)。受试者,通常是婴儿,被呈现两幅相似的视觉场景,其中一幅包含物理不可能事件。随后通过各种生理测量手段(例如相对凝视时间(Spelke, 1985))获得对每个场景的“惊讶”反应,并据此判断受试者是否发生了概念违背(Baillargeon 和 DeVos, 1991;Spelke, 1985;Margoni et al., 2024)(在这些实验中,通常通过在违背期望试验之前进行一系列习惯化试验,在一定程度上减轻基于低级过程(如知觉偏好)的非概念性凝视时间解释。)。这一范式已被扩展用于评估人工智能系统的物理理解(Riochet et al., 2022;Smith et al., 2019;Riochet et al., 2020),类似于婴儿试验,模型会被呈现场景对——两幅场景在对象属性、对象数量、遮挡物等所有方面均保持一致,仅在单一方面或事件上违背特定的直观物理概念。例如,一个球可能在遮挡物后滚动,但在其中一个配对视频中从未重新出现,从而检验物体永恒性的概念。模型对不可能场景赋予的更高惊讶度响应反映了对被违背概念的正确理解。
视频预测与直观物理理解: V‑JEPA 架构(LeCun, 2022)主要用于提高模型在无需硬编码一系列中间表征(如对象轮廓或姿态估计)的情况下,直接从输入适应高级下游任务(如活动识别(Kay et al., 2017)和动作分类(Goyal et al., 2017b))的能力(Bardes et al., 2024)。在此,我们测试这一架构在高级任务上成功的原因假设:它已经在表征中隐式捕捉了世界中对象的结构和动态,而无需直接表示它们。
如图 1.B 所示,V‑JEPA 由一个编码器(神经网络)和一个预测器(同样是神经网络)构成,编码器从视频中提取表征,预测器则预测视频中被人为遮掩部分的表征,例如随机遮掩的时空块、随机像素或未来帧。编码器与预测器的联合训练使编码器能够学习编码可预测信息并舍弃低级(通常语义性较弱)特征的抽象表征。
关于架构和训练的更多细节,请参见补充材料第 A.1 节。
在自监督训练完成后,我们可以无需任何额外适应,直接使用编码器和预测器网络来探测模型对世界的理解。具体而言,如图 1.C 所示,迭代地接收视频流,模型编码观测到的像素,然后预测下一帧的表征。通过记录每个时间步预测误差——预测视频表征与实际编码视频表征之间的距离——我们获得了模型在整个视频过程中惊讶度的时间对齐量化度量。改变模型可用于预测未来的过去视频帧数(上下文)可以让我们控制记忆影响,而改变视频帧率可以让我们控制动作的细腻度。关于更多细节,请参见补充材料第 A.7 节。
图 1 表征空间中的视频预测(V‑JEPA)实现了对直观物理的理解。(A) 视频模型在三种直观物理数据集(IntPhys、GRASP 和 InfLevel)上,使用违背期望范式进行评估。对于不合理的视频,V‑JEPA 显示出显著更高的“惊讶”程度。V‑JEPA 的随机初始化(未训练网络)表现接近随机水平,而基于文本或像素预测的最先进视频模型则更接近随机。95%的置信区间通过自助法(bootstrapping)获得,唯独对未训练网络(
n
=
20
n=20
n=20)则假设正态分布。(B) V‑JEPA 在学习到的表征空间中被训练用于“修复”自然视频。从一个视频及其损坏版本出发,首先提取表征。然后的目标是从损坏版本的表征中预测原始视频的表征。(C) 对于训练好的 V‑JEPA,我们通过基于过去
M
M
M 帧预测未来
N
N
N 帧的表征,并将预测结果与实际观测到事件的表征进行比较,来计算惊讶度指标。然后使用该惊讶度指标来判断哪一个视频包含物理违背。
表征预测学习检测直观物理的违背
我们在三个数据集上评估直观物理理解:IntPhys 的开发集(Riochet et al., 2022)、GRASP(Jassim et al., 2024)和 InfLevel‑lab(Weihs et al., 2022)。这些基准在视觉质量(合成/真实感)、场景多样性以及所测试的直观物理属性方面提供了丰富性。具体而言,这些数据集的组合使我们能够测试对物体永恒性(Baillargeon 和 DeVos, 1991)、连续性(Spelke et al., 1992)、形状与颜色恒常性(Wilcox, 1999;Wilcox 和 Chapa, 2004)、重力(Kim 和 Spelke, 1992)、支撑(Baillargeon 和 Hanko‑Summers, 1990;Baillargeon et al., 1992)、坚固性(Spelke et al., 1992)、惯性(Spelke et al., 1992)和碰撞(Baillargeon, 1995)的理解。精确定义见补充材料第 A.5 节。
我们将 V‑JEPA 与其他视频模型进行比较,以研究视频预测目标及其执行预测的表征空间对于直观物理理解的重要性。我们考虑另外两类模型:直接在像素空间进行预测的视频预测模型,以及多模态大型语言模型(MLLMs)。前者这组预训练方法与 V‑JEPA 具有相似的预测目标,但往往学习到语义性较差的表征空间(Wang et al., 2023;Bardes et al., 2024);它们在针对特定任务微调后才表现出效用。作为代表方法,我们评估了 VideoMAEv2(Wang et al., 2023)。尽管它使用了不同的预测目标和预训练数据,但这使我们能够在预测空间上与 V‑JEPA 进行比较;鉴于其预测特性,可以通过预测未来并通过预测误差度量惊讶度,以与 V‑JEPA 相同的方式评估 VideoMAEv2。
后者这类 MLLMs 模型经过训练用于文本预测,仅在事后与视频交叉学习,因此不具备视频预测目标。作为示例方法,我们研究了 Qwen2‑VL‑7B(Wang et al., 2024),一种开放权重的尖端视频语言模型,以及 Gemini 1.5 pro(Reid et al., 2024),一种封闭商用模型。这些模型在参数数量和训练数据规模上均显著大于 V‑JEPA,并且主要从文本数据中学习。多模态 LLMs 将视频及可能的文本提示作为输入,学习生成相应的文本输出。由于它们仅生成文本输出,无法使用基于量化惊讶度度量的相同评估协议;相反,我们提供给模型一对视频,询问两者中哪一个是不可能的。详细协议见补充材料第 A.7 节。
对于所考虑的每种方法,我们都评估了原始研究中提出的旗舰模型,并将所有模型与未训练的神经网络进行比较,以测试直观物理理解的可学习性。对于每个属性和模型,选择最大化性能的上下文长度,以便模型适应不同评估设置。这一过程针对所有方法进行,并得出了展示模型可达到最佳性能的结果。有关该选择的更多内容,详见补充材料第 B 节。
我们在图 1.A 中总结了各方法在不同数据集上的成对分类性能(即检测视频对中不可能的视频)。详细结果见补充材料第 F 节,详细参数见第 A.8 节。我们发现,在所有数据集上,只有 V‑JEPA 的表现显著高于未训练网络,在 IntPhys、GRASP 和 InfLevel‑lab 上的平均准确率分别为 98%(95% CI [95%, 99%])、66%(95% CI [64%, 68%])、62%(95% CI [60%, 63%])。这些结果表明,在学习到的表征空间中进行预测足以培养对直观物理的理解,无需任何预定义的抽象,也无需在预训练或方法开发期间了解这些基准。
相比之下,VideoMAEv2、Qwen2‑VL‑7B 和 Gemini 1.5 pro 的表现仅略高于随机初始化模型。像素预测模型和多模态 LLMs 的低性能印证了先前的发现(Riochet et al., 2022;Jassim et al., 2024)。这些比较进一步突出了 V‑JEPA 相对于现有 VideoMAEv2、Gemini 1.5 pro 和 Qwen2‑VL‑7B 模型的优势。然而,这并不意味着 LLMs 或像素预测模型无法获得直观物理理解,而仅表明这一看似简单的任务即便对于前沿模型也依然困难(Jassim et al., 2024;Kang et al., 2024;Bansal et al., 2024)。
V‑JEPA 的逐属性分析
我们现在仔细查看 V‑JEPA 在先前使用的数据集上的按属性性能,以便更精确地了解其直观物理理解能力。这里,V‑JEPA 的编码器和预测器基于 Vision Transformer‑Large(ViT‑L,而非旗舰模型使用的 ViT‑H)(Dosovitskiy 等, 2021;Bardes 等, 2024)架构,并在 HowTo100M 数据集(Miech 等, 2019)上训练。我们进行双样本单尾 Welch’s t 检验,以评估 V - J E P A V\text{-}JEPA V-JEPA( n = 5 n=5 n=5)是否较随机初始化的未训练模型( n = 20 n=20 n=20)提供了更高性能。结果汇总于图 2。
图 2 V‑JEPA 相对于随机初始化模型和人类在不同物理属性和基准上的精度提升。(A) 由于某些基准存在低级偏差,我们将模型性能与一组随机初始化网络(
n
=
20
n=20
n=20)进行对比测试。V‑JEPA 模型(
n
=
5
n=5
n=5)在大多数直观物理概念的基准上具有更高的相对分类准确率,但并非所有概念均如此。(B) V‑JEPA 在 IntPhys 测试集上相对(左图)和绝对(右图)准确率与基础人类表现在不同条件下的比较,显示了人类与机器错误之间的高度相关性。V‑JEPA 分数采用每个视频的最大惊讶度,这在单视频分类任务中具有更好的泛化能力。人类数据取自(Riochet et al., 2022)。
在 IntPhys 上,我们发现 V‑JEPA 在多种直观物理属性上显著优于未训练网络:
- 物体永恒性: M = 85.7 , S D = 7.6 M=85.7,\ SD=7.6 M=85.7, SD=7.6 对比 M = 51.4 , S D = 1.0 M=51.4,\ SD=1.0 M=51.4, SD=1.0( t ( 4.0 ) = − 8.9 t(4.0)=-8.9 t(4.0)=−8.9, p = 4.19 × 1 0 − 4 p=4.19\times10^{-4} p=4.19×10−4),效应量 g = 9.0 g=9.0 g=9.0(95% CI [6.3,11.7]);
- 连续性: M = 86.3 , S D = 6.2 M=86.3,\ SD=6.2 M=86.3, SD=6.2 对比 M = 51.2 , S D = 1.2 M=51.2,\ SD=1.2 M=51.2, SD=1.2( t ( 4.1 ) = − 11.3 t(4.1)=-11.3 t(4.1)=−11.3, p = 1.61 × 1 0 − 4 p=1.61\times10^{-4} p=1.61×10−4),效应量 g = 11.0 g=11.0 g=11.0(95% CI [7.8,14.2]);
- 形状恒常性: M = 83.7 , S D = 7.8 M=83.7,\ SD=7.8 M=83.7, SD=7.8 对比 M = 51.7 , S D = 1.2 M=51.7,\ SD=1.2 M=51.7, SD=1.2( t ( 4.0 ) = − 8.1 t(4.0)=-8.1 t(4.0)=−8.1, p = 5.96 × 1 0 − 4 p=5.96\times10^{-4} p=5.96×10−4),效应量 g = 8.1 g=8.1 g=8.1(95% CI [5.7,10.6])。
在 GRASP 上,我们发现 V‑JEPA 在以下属性上精度显著更高:
- 物体永恒性: M = 70.7 , S D = 7.8 M=70.7,\ SD=7.8 M=70.7, SD=7.8 对比 M = 54.1 , S D = 5.9 M=54.1,\ SD=5.9 M=54.1, SD=5.9( t ( 5.0 ) = − 4.0 t(5.0)=-4.0 t(5.0)=−4.0, p = 5.10 × 1 0 − 3 p=5.10\times10^{-3} p=5.10×10−3),效应量 g = 2.4 g=2.4 g=2.4(95% CI [1.2,3.6]);
- 连续性: M = 65.0 , S D = 6.1 M=65.0,\ SD=6.1 M=65.0, SD=6.1 对比 M = 55.0 , S D = 5.0 M=55.0,\ SD=5.0 M=55.0, SD=5.0( t ( 5.2 ) = − 3.0 t(5.2)=-3.0 t(5.2)=−3.0, p = 1.36 × 1 0 − 2 p=1.36\times10^{-2} p=1.36×10−2),效应量 g = 1.8 g=1.8 g=1.8(95% CI [0.7,2.9]);
- 支撑: M = 98.1 , S D = 3.0 M=98.1,\ SD=3.0 M=98.1, SD=3.0 对比 M = 58.4 , S D = 10.5 M=58.4,\ SD=10.5 M=58.4, SD=10.5( t ( 21.4 ) = − 14.0 t(21.4)=-14.0 t(21.4)=−14.0, p = 1.48 × 1 0 − 12 p=1.48\times10^{-12} p=1.48×10−12),效应量 g = 3.9 g=3.9 g=3.9(95% CI [2.4,5.3]);
- 重力: M = 74.9 , S D = 2.4 M=74.9,\ SD=2.4 M=74.9, SD=2.4 对比 M = 55.3 , S D = 4.3 M=55.3,\ SD=4.3 M=55.3, SD=4.3( t ( 10.3 ) = − 12.6 t(10.3)=-12.6 t(10.3)=−12.6, p = 6.83 × 1 0 − 8 p=6.83\times10^{-8} p=6.83×10−8),效应量 g = 4.5 g=4.5 g=4.5(95% CI [2.9,6.1]);
- 惯性: M = 62.0 , S D = 2.4 M=62.0,\ SD=2.4 M=62.0, SD=2.4 对比 M = 54.3 , S D = 4.2 M=54.3,\ SD=4.2 M=54.3, SD=4.2( t ( 10.1 ) = − 5.1 t(10.1)=-5.1 t(10.1)=−5.1, p = 2.36 × 1 0 − 4 p=2.36\times10^{-4} p=2.36×10−4),效应量 g = 1.8 g=1.8 g=1.8(95% CI [0.7,2.9])。
然而,我们未发现颜色恒常性、坚固性或碰撞有显著提升( p > 0.05 p>0.05 p>0.05)。
在 InfLevel 上,我们发现 V‑JEPA 在物体永恒性上的精度显著更高: M = 72.1 , S D = 2.9 M=72.1,\ SD=2.9 M=72.1, SD=2.9 对比 M = 52.5 , S D = 3.5 M=52.5,\ SD=3.5 M=52.5, SD=3.5( t ( 6.8 ) = − 11.9 t(6.8)=-11.9 t(6.8)=−11.9, p = 4.46 × 1 0 − 6 p=4.46\times10^{-6} p=4.46×10−6),效应量 g = 5.4 g=5.4 g=5.4(95% CI [3.6,7.1])。然而,我们未发现重力或坚固性有显著提升( p > 0.05 p>0.05 p>0.05)。
V‑JEPA 在与场景内容相关的属性(如物体永恒性)上表现出色,但在需要上下文事件知识(InfLevel‑lab 中的重力和坚固性)或精确对象交互建模(例如碰撞)的类别上表现较弱。我们假设这些局限主要源于模型的帧率限制。尽管如此,V‑JEPA 通过从原始感知信号中学习所需抽象,并且在预训练或方法开发期间无需任何预定义抽象或基准知识,展现了对直观物理的理解。与先前工作(Smith et al., 2019;Riochet et al., 2022)相反,这表明核心知识并非深度学习系统理解直观物理概念的必要条件。
我们进一步使用 IntPhys 的私有测试集(Riochet et al., 2022)将 V‑JEPA 与人类表现进行比较。人类数据取自(Riochet et al., 2022, 2020),通过亚马逊 Mechanical Turk 获取。对于该实验,我们关注旗舰 V‑JEPA 架构,使用在 VideoMix2M(Bardes et al., 2024)预训练的 ViT‑Huge(Dosovitskiy et al., 2021;Bardes et al., 2024)。我们发现 V‑JEPA 在所有直观物理属性上均达到或超过人类水平,如图 2.B 所示。我们还发现,对于单视频分类,使用视频中的最大惊讶度而非平均惊讶度可获得更优性能。对此区别的更多讨论详见补充材料第 A.7 节。一般而言,我们观察到当违背物理事件发生在遮挡物后时,V‑JEPA 和人类的表现均较低。此外,在遮挡场景下,V‑JEPA 与人类的性能高度相关。
图 3 掩码类型、训练数据类型与规模及模型大小对 V‑JEPA 在 IntPhys 分数的影响。(A)在 VM2M 上预训练时,V‑JEPA 在所有掩码策略下均表现出对直观物理的理解。(B)在三种训练数据集中,K710 和 HowTo100M 单独训练时均能获得高精度。在仅使用 1289 小时 HowTo100M(最大数据集)训练时,也能获得高分;即使仅使用 128 小时训练,也能达到高于随机的表现。(C)尽管较大的编码器可提升性能,但在 HowTo100M 预训练时,我们发现各规模模型的性能仍非平庸。置信区间通过自助法获得。
理解直观物理的关键要素
我们现在消融 V‑JEPA 的设计选择,以更好地理解促使直观物理理解出现的条件。我们关注三个对模型能力至关重要的组件。首先,考察训练数据的影响。数据的选择定义了模型的学习环境,不同的视频来源在语义多样性、运动模式和数量上各不相同。其次,考虑模型规模的影响。尽管传统观点认为更大的模型表现更好,我们也探究达到非平庸表现所需的最小规模。第三,研究预训练预测任务的影响。选择从哪些观测上下文中预测什么内容(预训练掩码策略)是否会影响模型的直观物理理解?
预训练任务的重要性。 回顾一下,V‑JEPA 模型在训练时需要预测视频中随机遮掩部分的表征,但在推理时始终进行因果预测——上下文包含直到某个时刻 t t t 的帧,模型需预测时间大于 t t t 的帧的表征。尽管我们使用因果预测来计算 V‑JEPA 的惊讶度,并且已观察到这对直观物理理解有效,V‑JEPA 从未在训练中使用过因果预测任务。相反,预训练任务被称为“块掩码”(Block Masking)(Bardes et al., 2024),即在整个视频时长内遮掩一个较大的空间块。先前观察到,V‑JEPA 在动作和活动识别任务上的表现会因使用的具体策略而大幅波动(Bardes et al., 2024)。
为了理解直观物理理解到底在多大程度上源自块掩码训练任务,我们研究了更改训练任务的效果,考虑了两种可能的替代策略。因果块掩码(Causal Block Masking)与块掩码相似,但还会完全遮掩视频的最后 25%,从而在训练过程中加入未来预测;随机掩码(Random Masking)则在视频中随机遮掩像素。与经典视频任务不同(Bardes et al., 2024),我们发现预测任务对直观物理理解的重要性并不高(见图 3.B)。虽然随机掩码会使视频分类任务平均下降约 20 个百分点(Bardes et al., 2024),但在 IntPhys 基准上的下降平均仅约 5 个百分点。有趣的是,因果块掩码的表现反而不如非因果块掩码,尽管前者与测试时的预测设置更为一致。随机掩码这一最简单策略的有效性表明,直观物理的理解并不需要专门的目标,关键在于在抽象表征空间中进行预测。
预训练数据的重要性。 数据是深度学习模型的关键成分,视频模型也不例外(Bardes et al., 2024)。视频数据集可以沿多个维度描述,例如视频的独立数量、平均时长、视角是第一人称还是第三人称、摄像机是固定还是移动等。因此,我们进一步研究预训练数据对直观物理性能的影响。V‑JEPA 先前在三种流行视频数据集的混合集 VideoMix2M(Bardes et al., 2024)上训练:Kinetics‑710(K710;Kay et al., 2017)、Something‑Something‑v2(SSv2;Goyal et al., 2017b)和 HowTo100M(HowTo;Miech et al., 2019)。每个数据集侧重于自然视频分布的不同切片:K710 强调活动(例如打篮球)、SSv2 强调细粒度运动(例如投掷物体),HowTo100M 则包含教程视频(例如烹饪)。为了研究训练数据对学习直观物理的影响,我们分别仅使用这三种组成数据集之一重新训练 V‑JEPA‑L 模型。
果不其然,我们发现数据源对性能有很大影响。仅使用侧重于运动理解的视频(SSv2)训练时,性能几乎与随机水平持平;而更偏重动作的 K710 数据使模型具备了超出随机水平的直观物理理解;我们发现教程类视频(HowTo)在单一数据集内表现最佳。但 HowTo 的规模也大于 SSv2 和 K710(合计 15 年的视频 vs. 3 个月)。因此,我们通过对 HowTo100M 进行子抽样,进一步考察同一分布下较小数据集的性能演化。我们在这些实验中保持计算预算不变:即使仅使用 HowTo100M 的 0.1%(共 128 小时独特视频),模型训练仍相当于处理了 30 年的视频(通过多次重访训练集视频)。如图 3.C 所示,数据集规模对性能影响不大,模型即便在仅有 128 小时独特视频的情况下,也能将所有考虑的直观物理属性对的分类准确率保持在 70%以上。
编码器规模的重要性。 深度学习文献中的常识是,模型越大性能越好(Kaplan et al., 2020)。在此,我们也对最小规模做了探索,以观察在哪个规模下能出现非平庸的直观物理理解。我们在缩小和放大编码器规模两方面进行考察。如图 3.C 所示,我们发现更大的模型表现更好;但即便是 1.15 亿参数的模型仍可达到 85% 以上的准确率,展现了对直观物理的稳健理解。
讨论
在本研究中,我们探讨了最先进深度学习模型中直观物理理解的出现。通过在自然视频上使用简单预测任务,在学习到的表征空间中进行预训练,V‑JEPA 在合成和真实视频上都表现出对直观物理的理解,而无需任何特定任务的适应。我们的结果表明,直观物理理解可以通过一种通用学习原则获得,因此并不需要硬编码的核心知识。尽管我们发现模型规模、预训练数据的选择以及具体的预训练任务会影响这种理解,但它的出现可归因于表征空间预测的通用框架,而不是 V‑JEPA 的某一具体设计选择。当研究其他方法(如多模态大型语言模型和像素预测方法)时,我们发现当前模型的表现接近随机水平。更高容量的生成视频模型或许可以通过对直观物理的某种理解来提升生成视频的真实性(Brooks et al., 2024)。然而,目前的证据表明,现有视频生成模型在物理理解方面仍不完整(Motamed et al., 2025;Bansal et al., 2024)。
尽管如此,V‑JEPA 所展示的物理理解也并非没有局限性。确实,V‑JEPA 在所有条件下的准确率并不一致。图 2 显示,尽管对于涉及对象内在属性的物理违背(颜色属性除外)具有较高的准确率,但涉及对象之间交互的违背(如坚固性或碰撞)则接近随机水平。这可能是因为模型训练数据中对象交互并不频繁,因此学习效果不如那些更常见的现象。此外,目前的 JEPA 模型具有有限的记忆能力,因此一次只能处理非常短的视频片段(通常为 3–4 秒)。V‑JEPA 还缺乏将预测条件于附加上下文(如某一动作正在进行)的能力,因此它只能以观察者的身份预测未来。虽然这对于本研究测试的属性是合适的,但更复杂的交互目前仍超出模型能力范围。确实,对象之间的交互可能需要更高阶的表征,而要捕捉这些交互可能需要一种更强大的 JEPA 分层版本。最后,也有可能代理体必须能够与对象本身进行交互,才能学习交互规律,这提示我们应在学习系统中加入动作通道。
从数据的角度来看,研究训练于模拟婴儿所见视频的模型(Sullivan et al., 2021;Long et al., 2024)也将具有意义,并探究在此类数据上训练的模型中是否同样能出现直观物理理解。
尽管存在上述限制,我们认为,本研究报告的结果表明,潜在表征预测框架是构建能够理解物理世界的神经网络的一条前进之路。
附录
A 材料与方法
A.1 V‑JEPA 的无监督预训练
V‑JEPA(Bardes et al., 2024)由多个组件构成。首先是上下文编码器
f
θ
f_θ
fθ,其目标是输出一个被扰动视频的抽象表征。目标编码器
f
θ
E
M
A
f_{θ^{EMA}}
fθEMA用于对完整视频进行编码,并生成供预测器使用的目标。目标编码器的权重
θ
E
M
A
θ^{EMA}
θEMA是上下文编码器
θ
θ
θ权重的指数滑动平均。在训练的第
t
t
t轮迭代中,对于指数滑动平均参数
α
∈
[
0
,
1
]
α∈[0,1]
α∈[0,1],我们得到如下更新规则:
θ
t
+
1
E
M
A
=
(
1
−
α
)
θ
t
+
α
θ
t
E
M
A
θ_{t+1}^{EMA}=(1−α)θ_t+αθ_t^{EMA}
θt+1EMA=(1−α)θt+αθtEMA
最后,预测器
p
ϕ
p_ϕ
pϕ用于从被扰动的输入中预测未被扰动的表征。在训练过程中,我们从一个视频
V
V
V出发,通过遮掩视频中的随机块生成扰动版本
V
C
V_C
VC。因此,目标就是补集
V
C
ˉ
\bar{V_{C}}
VCˉ。训练目标是通过最小化以下目标函数,从
V
C
V_C
VC预测
V
C
ˉ
\bar{V_{C}}
VCˉ的表征:
∥
p
ϕ
(
f
θ
(
V
C
)
)
−
f
θ
E
M
A
(
V
C
ˉ
)
∥
1
(S1)
\|p_ϕ(f_θ(V_C))−f_{θ^{EMA}}(\bar{V_{C}})\|_1\tag{S1}
∥pϕ(fθ(VC))−fθEMA(VCˉ)∥1(S1)
虽然在训练时的扰动是时空块的去除,我们可以看到,如果我们使用前
C
C
C帧来预测视频的其余部分,那么该目标就转化为一个未来预测误差的度量。
A.2 预训练数据
在 V‑JEPA 的预训练中,我们依赖多个数据来源。所使用的原始数据混合集为 VideoMix2M(Bardes et al., 2024),由以下三个数据集拼接组成:Kinetics710(Kay et al., 2017)、SomethingSomething‑v2(Goyal et al., 2017b)和 HowTo100M(Miech et al., 2019)。Kinetics710 包含约 65 万段视频,涵盖 710 种动作类别(如皮划艇、熨衣等),每段视频约持续 10 秒。SomethingSomething‑v2 更注重运动细节,类别包括“揭开某物”或“投掷某物”等,包含约 20 万段视频,平均持续几秒。HowTo100M 是一个更大的数据集,包含约 120 万段视频,平均时长为 6 分 30 秒,总计约 15 年独特视频数据。与 Kinetics 或 SomethingSomething 相比,该数据集中个体内容未经过精细筛选,因此更加“贴近真实环境”。如主文所述,我们的大多数实验均使用 HowTo100M,它表现最佳,展示了 V‑JEPA 如何有效利用未标注的数据源。
A.3 V‑JEPA 预训练超参数
在所有实验中,我们在模型间使用相同的一组超参数,仅对消融组件进行更改。我们在表 S1 中总结了这些超参数。我们遵循原始 V‑JEPA 论文(Bardes et al., 2024)中的训练协议,但在位置编码中使用 RoPE(Su et al., 2021)替代绝对位置嵌入。为在 3D 数据(高度×宽度×时间)上使用 RoPE,我们将特征维度分为三部分,每部分用于一个时空维度。
以下是我们对三项核心要素的详细补充:架构、优化与掩码策略。
架构
我们在上下文编码器与目标编码器中均使用 Vision Transformer(ViT)(Dosovitskiy et al., 2021)。所有编码器都训练以接收最长 3 秒、16 帧(5.33 fps)的视频剪辑,分辨率为
224
×
224
224×224
224×224。视频剪辑被展平为不重叠的 patch 序列,patch 的形状为
16
×
16
×
2
16×16×2
16×16×2。预测器同样采用受 ViT 启发的架构,由 12 个块组成,嵌入维度为 384。
优化
我们使用 AdamW 优化器(Loshchilov 和 Hutter, 2019)来训练上下文编码器与预测器。所有实验均采用批量大小 3072,训练总迭代次数为 90000 次,约等于处理了 26 年(非唯一)的训练视频。学习率从
2
×
1
0
−
4
2×10^{-4}
2×10−4 在前 12000 次迭代中线性增加到
6.25
×
1
0
−
4
6.25×10^{-4}
6.25×10−4,随后在余下迭代中按照余弦调度衰减至
1
×
1
0
−
6
1×10^{-6}
1×10−6。我们将调度时间延长了 1.25 倍,即调度计划原本持续 112500 次迭代,但我们仅训练 90000 次。这样可避免在训练末期学习率过小而导致上下文编码器和目标编码器部分崩溃的问题。
掩码策略
在实验中,我们采用了几种掩码策略,现详细说明如下:
-
块掩码(Block masking):我们遮掩了 8 个空间比例为 0.15 的块以及 2 个比例为 0.7 的块。所有块的宽高比从 0.75 到 1.5 之间均匀采样。除非特别说明,默认采用此策略。
-
因果块掩码(Causal Block masking):该策略与块掩码相同,另外完全遮掩视频剪辑的最后 4 帧。
-
随机掩码(Random masking):该策略随机遮掩视频剪辑中 90% 的所有 patch,遵循均匀分布。
表 S1:V‑JEPA 的预训练超参数。该表结构与数值与原始 V‑JEPA 论文(Bardes et al., 2024)一致,唯一不同之处在于我们使用 RoPE(Su et al., 2021)来代替位置嵌入。
A.4 评估数据
为了对所研究模型进行更全面的评估,我们选用了多个数据源,其主要特征汇总于表 S2。IntPhys(Riochet et al., 2022)是最为精细策划的数据源,其视频对通过使用模拟器在像素级别上对齐,并且每帧都单独存储(避免了压缩伪影)。由于该数据集作为挑战的一部分包含私有测试集,我们依赖其较小的“开发集”子集,该子集公开提供标签。尽管如此,对于每对视频,其对象数量、遮挡物、对象的纹理/形状/颜色都是随机的,这确保了模型在多样化环境下的稳健表现。
表 S2:用于评估的数据集概览。IntPhys、GRASP 和 InfLevel‑lab 提供了在质量上差异显著的数据源,以对模型进行更全面的评估。
GRASP(Jassim et al., 2024)在使用模拟数据这一点上与 IntPhys 类似,但涵盖了更广泛的属性(10 个对比 3 个),并包含更多视频。该数据集在本研究中的一个限制是其原本设计为对单个视频进行评估,而非对视频对进行评估。因此,即使实践中我们将视频配对,我们也发现了一些问题,例如未训练模型在识别伪特征后可获得较高准确率。GRASP 中的一些视频可同时归属于多个属性,因此在呈现结果时,我们认为该视频同时属于所有对应属性(例如,属于“重力”和“支撑”的视频会分别计入两类)。
InfLevel‑lab(Weihs et al., 2022)为我们提供了自然视频来源,其中操作内容被精确配对。同一对视频中的唯一视觉差异为场景光照差异,模型应对此具备鲁棒性。该数据集中测试了三个属性;但对于其中两个(“坚固性”和“重力”),模型需要首先看到一个上下文事件,其中展示了用于操作的对象。如果没有这个前置视频,该任务就变得不可能完成。因此,InfLevel‑lab 比被测试模型需要更多的记忆和适应能力。我们进一步将该数据集中的“连续性”属性重命名为“物体永恒性”,以与其他数据集保持一致。这两个术语之间的区别非常微妙,但 InfLevel‑lab 的实验设置更接近 IntPhys 和 GRASP 中的“物体永恒性”。
我们强调,这些数据集在训练过程中均未被使用,仅用于评估,并且在评估时所有网络都是冻结的,因此这些数据集都属于分布外数据。
A.5 属性
我们在此简要说明本研究中所涉及的直观物理属性:
- 物体永恒性(Baillargeon 和 DeVos, 1991):物体不会凭空自发出现或消失。即使被遮挡,物体也会持续存在。
- 连续性(Spelke 等, 1992):物体会沿连续路径运动,不会在空间或时间中瞬间移动。该概念与物体永恒性密切相关,但在实验设置中有更微妙的差别。
- 形状与颜色恒常性(Wilcox, 1999;Wilcox 和 Chapa, 2004):物体不会自发改变颜色或形状。
- 重力(Kim 和 Spelke, 1992):物体在失去支撑时会下落。
- 支撑(Baillargeon 和 Hanko‑Summers, 1990;Baillargeon 等, 1992):物体放置在平台上时是稳定的,若失去支撑则会不稳定或下落。该属性与重力紧密相关,主要区别在于实验设置,例如可通过将物体推出平台测试支撑,通过将物体直接抛在空中测试重力。
- 坚固性(Spelke 等, 1992):物体不能重叠或穿透彼此。在遮挡物后测试时,该属性与连续性有相似之处,即物体也不应穿越其他物体。
- 惯性(Spelke 等, 1992):无生命物体不会自发改变其运动状态,例如突然转向。
- 碰撞(Baillargeon, 1995):物体在被其他运动物体撞击时不会保持静止。
关于精确的实验设置,请参见原始数据集(Riochet et al., 2022;Jassim et al., 2024;Weihs et al., 2022)。
A.6 基线
像素预测模型:我们使用 VideoMAEv2(Wang et al., 2023)作为像素预测的基线模型,其训练方式与 V‑JEPA 类似。然而,该方法的预测目标不在潜在空间中完成,而是在归一化像素空间中。每个 16 × 16 × 2 16×16×2 16×16×2像素的 patch 在作为目标前会先被归一化。这使得 VideoMAEv2 成为与 V‑JEPA 在实现细节相似但框架本质上不同的良好对比模型。
多模态大型语言模型(Multimodal Large Language Models, MLLMs):作为该类基线,我们选择了 Qwen2‑VL(Wang et al., 2024),这是目前开源中处理视频能力最强的多模态 LLM 之一,以及 Gemini 1.5 pro,这是一款在视频理解方面表现优异的闭源商用多模态 LLM。使用 Qwen2‑VL 可让我们完全控制视频的处理方式(例如某些闭源模型(Reid et al., 2024)会将视频下采样至 1 fps),并且能提供可复现的结果。
A.7 评估协议
基于预测的方法。像素预测方法与潜在表征预测方法可以以相同方式进行评估,两者唯一的区别在于预测目标的编码方式不同。对于 V‑JEPA,我们使用对未来帧进行编码后得到的抽象表征作为预测目标;而对于 VideoMAEv2,目标则是视频未来部分的归一化像素值。设有一个视频
V
V
V,包含帧
1
,
.
.
.
,
T
1,...,T
1,...,T,上下文编码器
f
θ
f_θ
fθ处理
C
C
C帧,目标编码器
g
ψ
g_ψ
gψ从视频中生成真实的未来
M
M
M帧,预测器用于预测未来
M
M
M帧。我们可以在时间点
t
t
t计算惊讶度(surprise)如下:
S
t
=
∥
p
ϕ
(
f
θ
(
V
t
:
t
+
C
)
)
−
g
ψ
(
V
t
:
t
+
C
+
M
)
∥
1
(S2)
S_t=∥p_ϕ(f_θ(V_{t:t+C}))−g_ψ(V_{t:t+C+M})∥_1\tag{S2}
St=∥pϕ(fθ(Vt:t+C))−gψ(Vt:t+C+M)∥1(S2)
然后可在整个视频上计算该惊讶度以获得整体惊讶度得分:
A
v
g
S
u
r
p
r
i
s
e
=
1
T
∑
t
∈
{
1
,
1
+
s
,
.
.
.
,
T
−
(
C
+
M
)
}
S
t
或
M
a
x
S
u
r
p
r
i
s
e
=
max
t
∈
{
1
,
1
+
s
,
.
.
.
,
T
−
(
C
+
M
)
}
S
t
(S3)
\mathbf{AvgSurprise} = \frac{1}{T} \sum_{t∈\{1,1+s,...,T−(C+M)\}} S_t \quad\text{或}\quad \mathbf{MaxSurprise} = \max_{t∈\{1,1+s,...,T−(C+M)\}} S_t\tag{S3}
AvgSurprise=T1t∈{1,1+s,...,T−(C+M)}∑St或MaxSurprise=t∈{1,1+s,...,T−(C+M)}maxSt(S3)
其中, s s s是步长参数,用于减少计算量。在实际操作中,我们使用 s = 2 s=2 s=2,这意味着预测从帧1、3、5等开始。
对于每个属性,我们选择能够最大化性能的 C C C值(其中 C + M C+M C+M为固定值),以适应不同任务对内存的约束。在 IntPhys 中,我们可以通过在每个起始帧 t t t下计算所有上下文长度 C C C下的最小惊讶度,来避免对上下文长度的搜索。
通过比较“可能”与“不可能”视频的惊讶度得分,我们就可以衡量模型是否理解了内在的物理属性。使用平均惊讶度得分(Smith et al., 2019;Piloto et al., 2022)非常适合比较相似的视频;而使用最大惊讶度得分则更适合对单一视频进行判断,因为它可以排除由场景复杂性带来的惊讶度贡献。
相对惊讶度(Piloto et al., 2022;Smith et al., 2019;Riochet et al., 2022)表示“不可能”视频的惊讶度减去“可能”视频的惊讶度差值,是一种常用的指标,因为它能精确衡量物理违背事件的效果。以 IntPhys 为例,我们执行了单尾单样本 t t t检验,以评估模型是否表现出大于零的相对惊讶度。
使用视频的平均惊讶度,我们发现对所有属性而言,V‑JEPA 都产生了大于零的相对惊讶度:
- 物体永恒性: M = 7.8 × 1 0 − 3 M=7.8\times10^{-3} M=7.8×10−3, S D = 6.3 × 1 0 − 3 SD=6.3\times10^{-3} SD=6.3×10−3( t ( 59.0 ) = 9.7 t(59.0)=9.7 t(59.0)=9.7, p = 4.64 × 1 0 − 14 p=4.64\times10^{-14} p=4.64×10−14);
- 形状恒常性: M = 7.1 × 1 0 − 3 M=7.1\times10^{-3} M=7.1×10−3, S D = 4.5 × 1 0 − 3 SD=4.5\times10^{-3} SD=4.5×10−3( t ( 59.0 ) = 12.2 t(59.0)=12.2 t(59.0)=12.2, p = 5.29 × 1 0 − 18 p=5.29\times10^{-18} p=5.29×10−18);
- 连续性: M = 8.5 × 1 0 − 3 M=8.5\times10^{-3} M=8.5×10−3, S D = 5.7 × 1 0 − 3 SD=5.7\times10^{-3} SD=5.7×10−3( t ( 59.0 ) = 11.5 t(59.0)=11.5 t(59.0)=11.5, p = 6.03 × 1 0 − 17 p=6.03\times10^{-17} p=6.03×10−17)。
这些结果可视化于图 S1 左列。
使用最大惊讶度,我们也发现对所有属性而言,V‑JEPA 都产生了大于零的相对惊讶度:
- 物体永恒性: M = 8.5 × 1 0 − 3 M=8.5\times10^{-3} M=8.5×10−3, S D = 5.7 × 1 0 − 3 SD=5.7\times10^{-3} SD=5.7×10−3( t ( 59.0 ) = 7.9 t(59.0)=7.9 t(59.0)=7.9, p = 4.54 × 1 0 − 11 p=4.54\times10^{-11} p=4.54×10−11);
- 形状恒常性: M = 8.5 × 1 0 − 3 M=8.5\times10^{-3} M=8.5×10−3, S D = 5.7 × 1 0 − 3 SD=5.7\times10^{-3} SD=5.7×10−3( t ( 59.0 ) = 8.9 t(59.0)=8.9 t(59.0)=8.9, p = 7.51 × 1 0 − 13 p=7.51\times10^{-13} p=7.51×10−13);
- 连续性: M = 8.5 × 1 0 − 3 M=8.5\times10^{-3} M=8.5×10−3, S D = 5.7 × 1 0 − 3 SD=5.7\times10^{-3} SD=5.7×10−3( t ( 59.0 ) = 6.8 t(59.0)=6.8 t(59.0)=6.8, p = 3.19 × 1 0 − 9 p=3.19\times10^{-9} p=3.19×10−9)。
对于该视频对分类任务,我们发现使用平均惊讶度表现更好,但这两种策略都能提供很高的性能。
一个更具挑战性但更贴近现实的任务,是分别观察“可能”和“不可能”视频的惊讶度,而不是将它们成对比较。能在不成对的情况下区分“可能”与“不可能”的视频更具难度(Riochet et al., 2022, 2020),并且需要模型对被测试属性有更深层的理解。聚焦于 IntPhys,我们执行了单尾双样本 Welch’s t t t 检验,以评估“不可能”视频是否具有比“可能”视频更高的平均惊讶度。
使用平均惊讶度,我们发现对所有属性而言,“不可能”视频的惊讶度平均高于“可能”视频:
- 物体永恒性: M = 0.57 , S D = 1.2 × 1 0 − 2 M=0.57,\ SD=1.2\times10^{-2} M=0.57, SD=1.2×10−2 vs. M = 0.560 , S D = 1.57 × 1 0 − 2 M=0.560,\ SD=1.57\times10^{-2} M=0.560, SD=1.57×10−2( t ( 108.5 ) = 3.1 t(108.5)=3.1 t(108.5)=3.1, p = 1.23 × 1 0 − 3 p=1.23\times10^{-3} p=1.23×10−3);
- 形状恒常性: M = 0.57 , S D = 1.3 × 1 0 − 2 M=0.57,\ SD=1.3\times10^{-2} M=0.57, SD=1.3×10−2 vs. M = 0.561 , S D = 1.62 × 1 0 − 2 M=0.561,\ SD=1.62\times10^{-2} M=0.561, SD=1.62×10−2( t ( 111.2 ) = 2.7 t(111.2)=2.7 t(111.2)=2.7, p = 4.46 × 1 0 − 3 p=4.46\times10^{-3} p=4.46×10−3);
- 连续性: M = 0.57 , S D = 1.5 × 1 0 − 2 M=0.57,\ SD=1.5\times10^{-2} M=0.57, SD=1.5×10−2 vs. M = 0.566 , S D = 1.72 × 1 0 − 2 M=0.566,\ SD=1.72\times10^{-2} M=0.566, SD=1.72×10−2( t ( 116.3 ) = 2.9 t(116.3)=2.9 t(116.3)=2.9, p = 2.52 × 1 0 − 3 p=2.52\times10^{-3} p=2.52×10−3)。
使用最大惊讶度,我们发现对所有属性而言,“不可能”视频的惊讶度平均高于“可能”视频:
- 物体永恒性: M = 0.61 , S D = 9.5 × 1 0 − 3 M=0.61,\ SD=9.5\times10^{-3} M=0.61, SD=9.5×10−3 vs. M = 0.577 , S D = 2.43 × 1 0 − 2 M=0.577,\ SD=2.43\times10^{-2} M=0.577, SD=2.43×10−2( t ( 76.7 ) = 8.4 t(76.7)=8.4 t(76.7)=8.4, p = 1.03 × 1 0 − 12 p=1.03\times10^{-12} p=1.03×10−12);
- 形状恒常性: M = 0.60 , S D = 9.9 × 1 0 − 3 M=0.60,\ SD=9.9\times10^{-3} M=0.60, SD=9.9×10−3 vs. M = 0.578 , S D = 2.26 × 1 0 − 2 M=0.578,\ SD=2.26\times10^{-2} M=0.578, SD=2.26×10−2( t ( 80.6 ) = 8.1 t(80.6)=8.1 t(80.6)=8.1, p = 2.06 × 1 0 − 12 p=2.06\times10^{-12} p=2.06×10−12);
- 连续性: M = 0.61 , S D = 2.0 × 1 0 − 2 M=0.61,\ SD=2.0\times10^{-2} M=0.61, SD=2.0×10−2 vs. M = 0.593 , S D = 3.41 × 1 0 − 2 M=0.593,\ SD=3.41\times10^{-2} M=0.593, SD=3.41×10−2( t ( 95.3 ) = 4.3 t(95.3)=4.3 t(95.3)=4.3, p = 2.01 × 1 0 − 5 p=2.01\times10^{-5} p=2.01×10−5)。
这些结果可视化于图 S1 的右列。
对于该任务,使用视频的最大惊讶度比平均值更理想,因为它能集中衡量最具“惊讶”性的事件,从而不受视频其他属性的影响。
图 S1 不同的惊讶度测量方式适用于不同的任务。 以 IntPhys 为例,我们发现,在比较视频对时,使用视频的平均惊讶度能够获得更好的性能。我们执行了单样本
t
t
t检验,以判断相对惊讶度是否大于零(见左图)。然而,当观察单个视频的惊讶度时,选取视频中的最大惊讶度能更好地区分“可能”和“不可能”的视频。我们执行了双样本
t
t
t检验,以判断“不可能”的视频是否比“可能”的视频具有更高的惊讶度(见右图)。
多模态大型语言模型(Multimodal LLM)
由于该类模型的输出仅为文本,因此最直接的方法就是直接询问模型在一对视频中哪一个是不可能的。我们使用如下提示词,该提示词借鉴自 GRASP(Jassim et al., 2024)中用于单个视频分类的提示方式:
“Video 1: <video_1>, Video 2: <video_2>. You are seeing a pair of videos, Video 1 and Video 2. They were both generated in a simulator, so ignore the quality of the videos. Exactly one of the two videos has an event which breaks the laws of physics. Given how objects behave on Earth, which one is it ? End your answer with the video name.”
“Video 1: <video_1>, Video 2: <video_2>. 你现在看到一对视频,Video 1 和 Video 2。它们都是在模拟器中生成的,因此请忽略视频的画质。这两个视频中有且仅有一个包含违反物理定律的事件。考虑到地球上物体的行为方式,请判断是哪一个?请以视频名称结束你的回答。”
其中<video_1>与<video_2>将被实际的视频对替换。我们对视频顺序进行打乱,以避免模型因偏好第一个或第二个视频而产生偏倚。
要求模型在回答结尾给出视频名称,使得我们可以方便地将其输出转换为模型预测结果。我们也尝试了其他策略,如 zero-shot 思维链(0-shot chain of thought)(Wei et al., 2023),或使用更详细的提示词,但未发现其在行为上有任何定性或定量的差异。对于所有模型,我们将采样温度设为 0。当模型拒绝回答问题时(例如回答“两个视频都是合理的”),我们将其计为错误。Qwen2‑VL 从未出现过该类拒答,而 Gemini 1.5 pro 大约有 10–15% 的情况会出现此类回答。
由于我们可以访问 Qwen2‑VL 的模型本体,其输出为对可能 token 的概率分布,因此我们也可以查看其对两个视频选项(即回答末尾的“1”或“2”)所分配的概率。我们计算每个视频的归一化概率如下:
P
=
P
(
"1"
)
P
(
"1"
)
+
P
(
"2"
)
或
P
=
P
(
"2"
)
P
(
"1"
)
+
P
(
"2"
)
(S4)
P = \frac{P(\text{"1"})}{P(\text{"1"}) + P(\text{"2"})} \quad\text{或}\quad P = \frac{P(\text{"2"})}{P(\text{"1"}) + P(\text{"2"})} \tag{S4}
P=P("1")+P("2")P("1")或P=P("1")+P("2")P("2")(S4)
这为我们提供了更细粒度的惊讶度衡量方式,尽管我们发现该概率通常接近 0.5,表明模型的预测几乎像是抛硬币。这一现象可见于图 S2 中 Qwen2‑VL‑72B 的结果。
图 S2 Qwen2‑VL‑72B 输出的归一化概率。当被提供一对视频时,我们发现模型对“可能”视频和“不可能”视频的预测概率基本相近。
A.8 评估超参数
对于每种方法,我们在每个数据集上使用如下超参数设置:
- IntPhys:帧跳跃参数(Frame skip)取值为 [ 2 , 5 , 10 ] [2,5,10] [2,5,10];窗口大小( C + M C+M C+M)取值为 [ 16 , 32 ] [16,32] [16,32];上下文长度取值为 [ 2 , 4 , 6 , 8 , 10 ] × ( C + M ) / 16 [2,4,6,8,10]×(C+M)/16 [2,4,6,8,10]×(C+M)/16
- GRASP:帧跳跃参数取值为 [ 2 , 5 , 10 ] [2,5,10] [2,5,10];窗口大小( C + M C+M C+M)取值为 [ 16 , 32 ] [16,32] [16,32];上下文长度取值为 [ 2 , 4 , 6 , 8 , 10 ] × ( C + M ) / 16 [2,4,6,8,10]×(C+M)/16 [2,4,6,8,10]×(C+M)/16
- InfLevel‑lab:对 V‑JEPA 与 VideoMAEv2,帧跳跃参数取值为 [ 5 , 10 , 20 ] [5,10,20] [5,10,20];对 Qwen 与 Gemini,帧跳跃参数取值为 [ 5 , 10 , 20 , 30 ] [5,10,20,30] [5,10,20,30];窗口大小( C + M C+M C+M)取值为 [ 16 , 32 ] [16,32] [16,32];上下文长度取值为 [ 2 , 4 , 6 , 8 , 10 ] × ( C + M ) / 16 [2,4,6,8,10]×(C+M)/16 [2,4,6,8,10]×(C+M)/16
对于所有属性,我们选择带来最佳性能的上下文长度。这意味着在某个特定数据集上,不同属性可能会采用不同的最优上下文长度。对于 IntPhys,我们发现可以使用每个起始帧下所有窗口的最小惊讶度,这不仅消除了一个需要调优的超参数,还能帮助过滤由“可能”事件引起的惊讶度尖峰。例如,一个物体进入场景时很难预测,常常会导致惊讶度突然升高,而这种过滤策略可有效剔除该类干扰。
表 S3:评估所用的超参数。
B 预测超参数的选择及其对零样本性能的影响
如“材料与方法”部分所述,在评估基于预测的模型(如 V‑JEPA 或 VideoMAEv2)时,必须选择与预测相关的超参数。由于本研究采用零样本(0-shot)评估方式,模型在执行任务时并未进行任何任务特定的校准。
因此,我们需要找到一种方法来选择超参数,特别是预测的上下文长度,因为该超参数直接决定了模型可以回顾多长的历史,并预测多长的未来。
大多数数据集(如 GRASP 或 InfLevel‑lab)没有提供标准的验证集和测试集划分,这使得传统方法的应用变得更加复杂。即使存在验证集,由于同一属性下场景之间的相似性,也可能导致验证集与测试集过于相似,从而造成信息泄漏。
值得注意的是,在 IntPhys 的开发集上获得的结果与其私有测试集的结果具有相关性,正如图 1 和图 2 所示。
因此,我们采用的方法是在每个属性上优化上下文长度,以展现模型所能达到的最大性能,这也是自监督学习文献中常见的做法(Bardes et al., 2024)。这意味着我们评估的是:模型是否具备解决当前任务所需的信息或能力。
我们现在更深入地研究这一选择及其对性能的影响。首先,我们研究在所有属性上固定上下文长度的表现情况。正如婴儿在经典实验中并不会被告知正在测试哪个物理属性(Baillargeon 和 DeVos, 1991),我们想知道被研究的模型是否也能在这种设定下表现良好。其次,我们研究在每个属性上变化上下文长度时的性能分布。
如图 S3 所示,在所有属性和数据集上使用固定上下文长度是可行的,V‑JEPA 的性能仅受到轻微影响。较小的上下文长度(如 2 帧)使模型能够进行更长期的预测(预测 14 帧),我们推测这比使用 14 帧上下文要表现更好,因为模型在较长的时间范围内预测某些场景属性可能更容易,而非从过去的片段中记忆这些属性。
图 S3 使用固定上下文长度时模型表现不佳。由于当前模型处理视频的时长受限,在所有属性和数据集上使用单一上下文长度会导致性能下降。但即便如此,V‑JEPA 在该设定下仍保持了非平庸的性能。
举例来说,如果在当前帧中出现了一个红球,那么长期预测仍可能包含该物体的信息;但如果红球仅出现在上下文的起始位置,随后被遮挡,模型可能会难以预测它是否会再次出现。要更好地理解模型如何利用上下文,还需要进一步实验。
查看图 S4,我们更清楚地理解了上下文长度如何影响特定属性和数据集的性能。对于 V‑JEPA 和 VideoMAEv2,IntPhys 和 InfLevel‑lab 的性能在不同上下文长度下相对稳定。然而,GRASP 表现出最大的波动,这在未训练的网络中也有观察到。
图 S4 改变预测上下文长度时性能的变化。虽然模型在较小上下文长度下通常表现更好,但最优的上下文长度依赖于属性和数据集。GRASP 表现出最明显的变化,而 IntPhys 和 InfLevel‑lab 则整体上对上下文长度变化不太敏感。
我们发现,对于大多数属性而言,使用更短的上下文长度(从而进行更长距离的预测)能够提升性能。这可能归因于 GRASP 在设计上的偏差,也可能源于模型预测机制中的偏差。
使用不同上下文长度带来的性能波动是当前方法的一项限制,未来的模型应通过处理更长的视频序列来应对这一问题。
C 视频中语义与运动多样性的影响
尽管我们已经研究了预训练数据集规模对性能的影响,但实际上有多种方法可以进行控制。一种方式是仅抽样构成数据集的一部分视频;另一种方式是保留所有视频,仅在每个视频内部对子帧进行抽样。
这两种方法之间的区别在于:在总数据量相同的前提下,前者降低的是场景层面的视频多样性,而后者降低的是单一场景中的运动多样性。因此,没有理由认为这两种方法在效果上是等价的。
为了研究帧抽样的影响,我们采用如下协议:保留每个视频中间部分的 X % X\% X%帧。我们之所以选择中间帧,并非随意。视频的开头和结尾,尤其是教程类视频(Miech et al., 2019),通常包括开场介绍和结束总结。这些部分往往与视频的核心内容关系不大,并且包含的动作较少。因此,我们选择中间帧以获取更有意义的数据。
对于视频抽样,协议则更为简单:在所有视频中均匀抽样 X % X\% X%。在这两种情况下,我们都确保小规模子集始终包含于大规模子集之中。即,如果 X < Y X<Y X<Y,那么 X % X\% X%的视频或帧子集包含于 Y % Y\% Y%的视频或帧子集中。
如图 S5 所示,尽管这两种抽样策略都能获得非平庸的性能,但视频抽样(降低场景多样性)通常能带来更高的性能。这进一步表明,并非所有的预训练分布都是等效的,某些数据分布更适合学习对直观物理的理解。
图 S5 动作与场景多样性的影响。我们通过在 HowTo100M 的子集上预训练 V‑JEPA‑L,研究动作与场景多样性对 IntPhys 性能的影响。(左)通过对视频进行子采样以减少场景多样性,我们发现即便只使用 128 小时独特视频,模型仍能获得良好性能;(右)通过对视频中的帧进行子采样以减少单个场景中的运动多样性,我们发现性能下降幅度大于左图情况,但即使只使用 2% 的帧(2579 小时),模型仍能保持良好性能。
D IntPhys 挑战赛的结果
IntPhys 最初是作为一个挑战赛提出的,并带有私有测试集。尽管这使得我们难以对每一次实验都在该测试集上进行详尽分析,我们仍然在此提供了对 V‑JEPA 在该测试集上的分析。
如表 S4 和表 S5 所示,V‑JEPA 在 IntPhys 开发集上获得的高准确率同样也出现在其私有测试集中。测试集每个属性包含 3600 个视频,相比之下,开发集每个属性仅包含 120 个视频。这些结果进一步强化了我们先前所得的结论,即模型所学到的直观物理理解具有稳健性。
如图 2.B 所示,V‑JEPA 的性能与人类基线相当,甚至更高。我们进一步发现,V‑JEPA 的表现超越了此前发表的方法(Riochet et al., 2020),这些方法依赖于预定义的抽象表示(如分割掩码)。
聚焦于单个视频分类任务,我们发现 V‑JEPA‑H 与 V‑JEPA‑L 在性能上存在显著差异:前者可以达到甚至匹配人类表现,而后者仍有较大差距。这表明,当任务变得更加困难时,模型的规模对性能是有益的;而在成对分类设置下,扩大规模则并未带来显著提升。
表 S4:IntPhys 测试集上的视频对分类错误率。对于一对视频,无论是使用视频中的最大惊讶度还是平均惊讶度,都能获得较高性能,超过了文献(Riochet et al., 2022)中报告的人类表现。
表 S5:IntPhys 测试集上的单视频分类错误率(
1
−
AUROC
1-\text{AUROC}
1−AUROC)。在单视频分类中,我们发现使用视频的最大惊讶度能够获得最高性能,超过了文献(Riochet et al., 2022)中报告的人类基线。在该任务中,使用平均惊讶度作为指标效果较差,可能是由于该值过度依赖实验设置。我们将指标以百分比形式呈现,以提高可读性。
E InfLevel 中情境化事件的重要性
如正文所述,我们发现模型在 InfLevel‑lab 上表现不佳,原因在于情境化事件的重要性。如果缺乏对此事件的了解和记忆,该任务将变得无法完成,因为在主要实验过程中,遮挡物的修改是不可见的。因此,我们提出重新标注数据,假设物体没有被修改:例如,杯子始终有底部,圆柱体始终没有被切开背面。这样的设定提供了一个测试平台,评估模型对“世界中物体未被修改”这一前提下的理解能力。
不过,这样做存在一些限制。例如在重力测试中,物体会穿过或不穿过杯子。如果我们假设杯子总是有底,那么在“可能”的视频中,物体被释放后不会发生任何事情;而在“不可能”的视频中,模型需要预测物体的运动轨迹,包括它落在桌子上时的弹跳。这意味着“不可能”的视频本身就比“可能”的视频更难,从而可能人为提高模型的总体表现。
在图 S6 中,我们发现 V‑JEPA、VideoMAEv2,甚至是未训练网络的性能都有显著提升。对于后者的性能提升表明,该任务可以通过一些启发式方法解决,因为“仅存在一个物理违背事件”这一前提在这里被打破了。
因此,尽管这种性能提升令人鼓舞,但我们仍需谨慎看待这些结果;而关于“连续性”的评估结果依然最具参考价值,因为其实验设置更为受控、更具严谨性。
图 S6 将 InfLevel 重新标注以去除情境化事件。“重力”和“坚固性”这两个属性都要求模型记住在正式实验之前视频中展示的容器的特性。通过对视频重新标注,使得前置视频(prefix video)不再成为必需,我们发现 V‑JEPA 和 VideoMAE 的性能都有显著提升。 然而,这种重新标注打破了“可能视频”和“不可能视频具有相同难度”这一假设。
F 各属性上的方法性能
图 S7:V‑JEPA‑L 的完整结果。该模型(
n
=
5
n=5
n=5)在大多数物理属性上表现优于未训练网络。黑色点表示使用 5 个不同随机种子所得到的性能。
属性包括:物体永恒性、连续性、形状恒常性、颜色恒常性、支撑、惯性、重力、坚固性、碰撞。
图中显著性标注为:*** 表示
p
<
0.001
p<0.001
p<0.001,** 表示
p
<
0.01
p<0.01
p<0.01,n.s. 表示无统计显著性。
图 S8:V‑JEPA‑H 的完整结果。该模型在大多数属性上表现优于未训练网络。灰色点表示 20 个未训练网络的性能。置信区间通过自助法(bootstrapping)获得。
图 S9:VideoMAEv2 的完整结果。该模型在除“坚固性”和“碰撞”外的各属性上表现与未训练网络相当或略有提升。灰色点表示 20 个未训练网络的性能。置信区间通过自助法获得。
图 S10:Qwen2‑VL‑72B 的完整结果。该模型在除“颜色恒常性”和“支撑”外的各属性上表现与未训练网络相当或略有提升。灰色点表示 20 个未训练网络的性能。置信区间通过自助法获得。
图 S11:Gemini 1.5 pro 的完整结果。该模型在所有属性上表现与未训练网络相当或略有提升。灰色点表示 20 个未训练网络的性能。置信区间通过自助法获得。