OPAL：机器人学习中编码物理系统的因果理解

本文链接：https://blog.csdn.net/yorkhunter/article/details/147193083

25年4月来自Apiary Systems的论文“OPAL: Encoding Causal Understanding of Physical Systems for Robot Learning”。

OPAL（带语言的操作物理智体），是一种视觉-语言-动作架构，它将拓扑约束引入机器人控制的流匹配中。为此，进一步引入拓扑注意机制。其方法将动作序列建模为具有非平凡约束的拓扑结构化表示。在 10 个复杂操作任务中的实验结果表明，OPAL 的性能优于之前的方法，包括 Octo、OpenVLA 和 π0。

该架构在零样本性能方面实现显著提升，无需针对特定任务进行微调，同时将推理计算需求降低 42%。其拓扑方法提供的理论保证，可以实现更连贯的长视界动作序列。研究结果凸显通过从基本物理定律中推导来限制机器人学习问题搜索空间的潜力，以及利用拓扑注意机制将因果理解嵌入到 Transformer 架构中的可能性。

非结构化环境中的机器人控制仍然是人工智能领域的一大挑战。虽然基于大型语料库 Transformer 的模型在泛化至非语境任务方面已展现出显著的提升 [26, 21]，但这些模型却无法泛化至实体系统。看来，实体理解能力并非“免费”地从基于语言和视觉数据训练的模型中获取，而是必须通过在实体系统上进行训练来发展。

事实证明，在语言和视觉领域构建通用模型（即那些能够捕捉预训练表征并可跨任务泛化的模型）比在机器人领域更容易实现，原因如下：

首先，训练实体智体所需的数据，与语言和视觉模型的数据有着根本的不同。语言和视觉系统受益于可大规模收集和处理的海量静态数据集 [7, 22]，而机器人学习则需要交互式的物理数据收集——这个过程本质上耗时、昂贵且难以并行化 [18]。这给开发那些推动其他领域成功的数据密集型架构带来巨大的瓶颈。

其次，机器人技术引入复杂的物理约束，而这些约束在纯粹的表征领域是不存在的。机器人系统必须应对物理限制、环境变化、传感器噪声和驱动不确定性——所有这些都是在实时约束下运行的。这些具身的挑战引入非具身人工智能系统中不存在的故障模式，因为在非具身人工智能系统中，错误不会立即产生物理后果。

第三，机器人系统的评估标准是多方面的，而且通常针对特定任务，因此很难开发出与语言和视觉基准测试中使用的指标相当的通用指标 [9]。例如，机器人操作的成功可能涉及评估抓取稳定性、运动效率和任务完成情况——这些指标在不同环境和目标之间差异很大。

视觉语言模型的最新进展使得更灵活的多模态理解成为可能，但为物理任务生成连贯的动作序列仍然很困难。包括 Octo [27] 和 Open-VLA [15] 在内的先前方法已经在该领域取得了进展。最近，π0 [2] 被引入作为一种原型通用架构。π0 在保持长视域连贯性和物理一致性，以及规划复杂的多步骤任务的执行方面存在困难。

本文 OPAL，是一种基于 Transformer 的架构，它通过基于拓扑场论的动作，生成原理性方法来解决这些限制。关键见解是，复杂的动作序列表现出类似于凝聚态物理中的弦网（string-net）模型拓扑结构，其中局部约束决定了全局行为。通过将这些约束纳入流匹配（flow matching）框架，实现更加连贯和物理上合理的动作序列。

拓扑量子场论

拓扑量子场论 (TQFT) ，提供了描述全局性质在某些变换下保持不变的系统数学框架。Levin-Wen 模型 [17] 是一种弦网形式主义，它通过局部融合规则对拓扑约束进行编码。虽然这些概念主要应用于量子物理学，但它们为构建机器人技术中的动作表征提供宝贵的见解。本文工作代表弦网形式主义在机器人控制中的首次应用，建立拓扑量子场论与机器人学习之间的联系。

任务定义

设 o_t = [I_t^1, …, I_t^n, l_t, q_t] 表示时间 t 的多模态观测，其中 I_t^i 表示第 i 个 RGB 图像（通常来自底座、左腕和右腕摄像头），l_t 表示语言命令，q_t 编码本体感受状态信息。

目标是对条件分布 p(A_t|o_t) 进行建模，其中 A_t = [a_t, a_t+1, …, a_t+H−1] 表示在时间范围 H = 100 内的未来动作序列。将该序列按层次结构构建为：

A_t = [P_t¹,P_t², …,P_t^K]

其中每个原语 P_k =[a_t^k,1, a_t^k,2, …,a_t^k,m] 包含 m 个详细动作，从而保持 H = K · m = 100。

概述

该模型基于先前的方法，旨在统一用于机器人控制的语言和视觉编码器。具体而言，采用视觉语言模型主干，处理来自图像和语言模态的tokens，以及本体感受机器人状态。与仅依赖标准后期融合的现有方法相比，引入一种拓扑注意机制，在 token 融合过程中施加明确的物理约束。该机制保留机器人具身的结构关系和动态特性，从而提高了动作生成的一致性和可行性。

在对每个模态进行编码后，采用交叉注意融合机制来整合跨模态信息：

[H = MHAttn([Vis(I_t¹),…,Vis(I_t^n),Lang(l_t),State(q_t)])]

其中，MHAttn 是多头注意机制。这种跨模态融合采用了拓扑注意机制，该机制在模态间信息交换过程中强制执行物理约束。最终的表征 H 形成统一的多模态嵌入，保留生成物理一致的动作所必需的结构关系。

架构

OPAL 类似于混合多头架构（如图所示）。基于 Transformer 的组件负责多模态理解——整合机器人系统中常见的视觉、语言和状态输入。拓扑动作头应用过滤掩码 M_topo，在生成嵌入张量 W 之前去除物理上无效的解。

请添加图片描述

A_t^τ 表示一个“带噪声”的动作序列，在每次新的观测后随机生成。嵌入张量 (W) 用作新的过滤观测集，并与 A_t^τ 结合生成矢量场 v_θ，该矢量场遵循先前由 M_topo 获得的融合规则。v_θ 经过预训练以最小化拓扑损失，在尊重拓扑约束的同时，将噪声分布转换为动作分布。然后，训练好的策略与 A_t^τ 进行流匹配。接下来，采用 4 步、步长 δ = 0.25 的龙格-库塔积分，将起点转换为连贯的动作序列 A_t。地平线 (H) 的值决定生成的未来动作的数量，这些动作被分组为原语 (P_t^k)，供机器人控制器执行。

训练和工作流程

使用 OXE 等开源数据集以及自己的硬件数据集来生成完成特定任务所需的动作。这些已知的 A_t 序列用于训练策略 v_θ 并调整权重 θ，直到任何动作序列 (A_t^τ) 都能被过滤为仅包含物理上精确或拓扑上关联的序列，从而实现精确的流匹配。

OPAL 接收观测值 O_t，其形式包括摄像头图像、语言命令和本体感觉数据。Transformer 通过编码器以及随机生成的动作序列 A_t^τ 来处理这些数据。拓扑约束的注意机制 (Mtopo-constrained attention) 根据这些观测值创建新的 W 表征。训练好的矢量场 v_θ 使用这个新的 O_t 将随机噪声转换为动作，然后使用龙格-库塔积分对动作轨迹进行采样，生成视界为 H = 100 的动作序列 A_t。机器人执行这些动作的一部分 (P_t^k)，m，环境发生变化。收集新的观测值 (O_t + 1)，并重复此循环。

这种持续的更新周期，使 OPAL 能够适应环境中的实际情况，而不是盲目地遵循预先设定的规划。这让系统能够适应变化，同时通过进程每一步的拓扑约束保持物理一致性。

拓扑注意机制

拓扑注意机制源于用于描述具有非平凡拓扑性质的系统的数学形式。在这样的系统中，局部自由度受到约束，从而产生全局拓扑不变量。采用这一数学框架设计一种注意机制，该机制可在机器人控制中各个动作序列之间强制执行物理约束。

与学习 token 之间不受约束关系的标准注意层不同，拓扑注意机制通过掩码机制 M_topo 引入明确的物理合理性。该掩码机制编码源自拓扑量子场论的“融合规则”，确保只有有效的动作转换才能获得非零的注意分数。具体来说，经典的多头注意机制允许任何 token 关注其他 token，而拓扑注意机制，则会为物理上不可能发生的转换对注意权重清零——例如，在抓取物体之前尝试将其举起。这种明确的约束不仅提高长视域一致性，还降低策略搜索空间的有效维数，从而实现更快的收敛速度和更鲁棒的零样本泛化能力。通过在数学上强制执行的可行动作序列流形内进行操作，拓扑注意机制从头开始强制现实世界的一致性，而不是依赖于纯粹的数据驱动先验。

其理论基础基于格子边缘上字符串配置的形式化描述，并受局部融合规则的约束。这些融合规则以数学形式指定哪些配置可以在顶点处相遇，类似于在物理有效的序列中，某些动作只能在其他动作之后或之前执行。融合规则由张量 F_k^ij 编码，它指定配置 i 和 j 的振幅融合到配置 k。为了实现物理一致性，这些张量必须满足数学一致性条件，即五边形和六边形方程。这些方程确保全局一致性从局部规则中产生，而全局一致性是生成物理上有效的动作序列的必要属性。

建立从拓扑场论到机器人动作序列的形式映射。动作 token 对应于拓扑形式体系中的字符串类型。物理前提条件和约束，对应于融合规则。不变的物理属性（例如物体完整性）对应于拓扑电荷。物理一致性条件，对应于拓扑理论中的五边形和六边形方程。该映射为对机器人动作生成施加物理约束提供一个数学上严格的框架。

拓扑注意机制正式定义为：

请添加图片描述

其中拓扑掩码：

请添加图片描述

与学习 token 之间不受约束关系的标准注意机制不同，拓扑注意机制在数学约束的物理有效配置流形内运行。这种约束提供一些形式上的优势。它通过将信息流限制在有效配置中来强制物理一致性，这由 M_topo 的属性在数学上保证。该方法通过限制动作空间来提高样本效率，从而降低学习问题的有效维度。拓扑约束代表跨任务推广的通用物理原理，这一特性源于底层物理定律的任务独立性。此外，M_topo 的结构通过揭示模型已学习的物理约束来提供可解释性。

如图所示：OPAL的多头注意机制
请添加图片描述

该实现包含一个三级融合规则层次结构，每个规则都具有形式化的数学属性，以确保在不同尺度上实现物理一致性。

在最细粒度的层面上，局部融合规则，控制着原语中相邻动作 token 之间的交互。这些规则确保基本的物理一致性，例如确保抓取器在抓取之前必须打开。

在中间层，非局部融合通道能够实现具有拓扑保护的长距离依赖关系。这些通道确保动作序列中相距较远的部分即使不直接交互也能保持物理一致性，这对于需要不同肢体或连续阶段之间协调的任务至关重要。

在最高层次上，注意机制中的不变子空间对应于必须在整个动作序列中保留的全局属性。这些不变子空间在数学上表示为投影算子。

这些投影器确保注意机制尊重动作空间的拓扑分区，防止违反全局不变量的转换。这些投影器的数学特性，特别是其幂等性（Π_a^2 = Π_a）和正交性（当 a 不等于 b 时，ΠaΠb = 0），保证最终的动作序列遵循问题域的基本物理约束。

在实践中，M_topo 使用源自基本物理定律的物理先验进行初始化，并在训练过程中不断完善。为了保持拓扑约束的同时能够适应特定任务的需求，在每次更新后将学习的注意模式投影到有效拓扑掩码的流形上。

操作上，每次梯度更新后，将更新后的注意权重投影回“允许”掩码值的子空间，以保持融合规则的一致性。

此步骤有效地修剪由数据噪声或优化误差引入的任何细微违规。具体而言，解决一个小规模的一致性检验，该检验验证矩阵 M_topo 是否持续满足局部融合约束和全局不变量（例如，目标连续性、运动可行性守恒）。通过这样做，保证用于推理的最终拓扑掩码，即使在训练过程中进行调整，也不会偏离物理上无效的区域。

拓扑注意机制的数学结构，为生成的动作序列的物理有效性提供形式化保证。这些保证源自底层拓扑框架的属性，并确保模型只能生成物理上合理的动作。融合规则的层次化特性，使模型能够捕捉从局部交互到全局任务结构的多尺度物理约束。这种多尺度方法对于需要长期规划和精确物理交互的复杂任务尤其有效。

矩阵 M_topo 是拓扑场论与实际机器人控制约束之间的桥梁。该矩阵编码生成连贯动作所必需的三类关键物理约束。

1）物理可容许性约束通过每个条目 M_topo(i,j) 进行编码，表示动作 token i 是否可以在物理上先于动作 token j 发生或与动作 token j 共存。例如，在机器人操作场景中，“抓取”动作必须在“举起”动作之前发生，并且某些关节配置可能在物理上不兼容。这些约束通过融合系数 F_k^ij 进行编码，该系数决定了动作 token i 和 j 融合成最终状态 k 的概率幅度。F_k^ij 的非零元素精确地描述动作空间中物理上可容许的转换。

2）守恒定律的保持构成第二类约束。物理系统必然保持某些不变量，包括物体约束和运动学可行性。这种关系等同于范畴论中的五边形方程，确保导致相同结果的不同动作序列保持物理一致性。满足此条件可保证动作序列的物理后果在应该与路径无关时也与路径无关，这是物理现实主义的必要条件。

3）时间结构代表第三类。长期规划要求动作在扩展序列中保持时间连贯性。M_topo 通过块结构对此进行编码，该结构在动作原语 P_t^i 和 P_t^j 之间施加约束，确保原语块之间的转换保持因果一致性。时间结构形式化地表示为偏序关系，以保证生成的动作序列的物理可行性。

M_topo 的构建遵循三个阶段。首先，使用关于有效动作转换的物理先验初始化矩阵，并根据基本物理定律建立基线约束。其次，通过强制执行五边形和六边形方程来应用一致性改进，从而保证局部约束下的全局一致性。最后，在训练过程中，通过一个单独的投影头运用学习的自适应方法，该投影头在保持拓扑结构的同时适应特定任务的要求。

与仅控制信息流的标准注意掩码不同，M_topo 编码丰富的物理世界结构信息，提供一个形式上严谨的框架，约束模型仅生成物理上有效的动作序列。M_topo 背后的数学形式主义保证最终的注意机制能够遵循问题领域的基本物理约束。

在积分中，没有使用简单的前向欧拉方案（这通常需要许多小步骤或存在数值不稳定性），而是采用四阶龙格-库塔方法进行流匹配过程。这种高阶积分在计算成本和精度之间取得平衡；它使我们能够采取更少、更大的步骤（每个动作序列仅需四个积分子步），同时仍然保持细粒度的轨迹质量。实际上，与 10 步欧拉方法相比，这可以将推理时间缩短 40% 以上，而不会牺牲精确机器人控制所需的精度。此外，龙格-库塔减少的误差累积转化为更稳定的策略输出，最大限度地降低了在长期任务中发生漂移或累积小误差的风险。
最后的 OPAL 训练伪代码如下总结：

请添加图片描述

模型使用 JAX 实现，并在 8 台 NVIDIA A100 上进行训练。使用 Adam 优化器，学习率为 3 × 10−4，批次大小为 256。对于 OPAL，在训练组合目标中设置权重分别为 λ1 = 0.1、λ2 = 0.05 和 λ3 = 0.2。Runge-Kutta 积分在训练和推理过程中均采用步长 δ = 0.25，积分步长为 4。
如下为 OPAL 的推理/动作生成伪代码：

请添加图片描述