EgoExoLearn：一个桥接现实世界中程序活动的异步以自我为中心和以外部为中心视图的数据集

硅谷秋水

于 2024-08-22 00:05:30 发布

阅读量434

点赞数 14

分类专栏：计算机视觉机器学习文章标签：人工智能计算机视觉视频

本文链接：https://blog.csdn.net/yorkhunter/article/details/141390510

版权

机器学习同时被 2 个专栏收录

203 篇文章 1 订阅

订阅专栏

计算机视觉

91 篇文章 0 订阅

订阅专栏

24年6月来自上海AI实验室的论文“EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World”。

能够将他人的活动映射到自我的视角中是人类从很小的时候就具备的一项基本技能。为了进一步了解人类的这种能力，引入 EgoExoLearn，这是一个模拟人类示范过程的大型数据集，在这个过程中，在执行由外部为中心视图示范视频指导的任务时，个人录制以自我中心视图的视频。EgoExoLearn 专注于日常协助和专业支持方面的潜在应用，包含在日常生活场景和专业实验室中拍摄的长达 120 小时以自我中心视图和示范视频数据。除了视频之外，还记录了高质量的凝视数据并提供详细的多模态注释，制定了一个平台去建模人类能力，其从不同视角桥接异步的程序动作。为此，提出跨视图关联、跨视图行动规划和跨视图参考技能评估等基准，以及详细的分析。

数据集和基准代码： https://github.com/OpenGVLab/EgoExoLearn

即使是孩童，人类也能观察他人的行为，然后将其映射到自己的视角中 [6, 41, 110, 115]。凭借这种异步连接自我为中心和外部为中心视角活动的能力 [105, 113]，人类可以观看他人的演示并在新的环境中复制这些程序。当实际的物理试验可能带来高成本时，这种能力尤其有用 [31]，例如进行危险的化学实验。

随着人工智能系统的最新进展，下一代AI智体的一个目标是在更具身的环境中执行任务 [104]。然而，与人类不同，训练这些AI智体通常需要在类似的环境中拍摄演示视频 [84, 130]，并从AI智体一致的视角（例如，自我中心的视角 [50, 67, 118, 145]）进行。虽然人们已经为收集不同场景中以自我中心视角的数据付出了巨大努力 [22, 37, 116]，但对于 AI 智体来说，直接从不同地点和不同视角拍摄的演示视频中学习仍然至关重要 [42, 160]。实现这一能力可以释放公共教学视频数据的全部潜力 [91]，并且在人机合作场景中也很有用，特别是在新环境中 [65, 86, 139]。

目前朝着这个目标所做的工作大致可以分为两个方向。一种方法是在模拟环境中学习模型 [13, 73, 88, 99, 102]，但这种环境下的模型很难在现实世界中推广 [137]。另一个方向是从现实世界场景中的人类活动中学习。然而，直接组合现有多视图数据集的尝试通常会产生质量或规模较差的数据集 [135, 154]。同时，该方向现有的少数数据集 [109, 116, 119] 仅以时间同步的方式记录同一环境中自我为中心视角和外部为中心视角的视频。实际上，在跟随演示时，通常需要把在不同地点和不同时间执行的一系列程序动作桥接在一起。然而，目前还没有可用于探索如何在现实的自我中心视角和外部中心视角中衔接异步的程序活动数据集。

如图所示：EgoExoLearn 模拟人类异步的演示跟随过程。它包含多个任务的演示视频，以及参与者在观看演示后重复该过程，录制以自我为中心视角的视频。该数据集包括注视信号和细粒度的多级多模态注释，可用于探索此背景下的关键特征，例如跨视图关联和跨视图行动规划。

请添加图片描述

虽然有一些研究将现有数据集关联起来，探索如何在它们之间架起桥梁，但这些关联数据集往往规模有限 [17, 155, 159] 或质量有限 [135]，同时仅关注从同一视图捕获的单个动作 [90, 98, 142]。至于来自不同视图的动作，除了多视图固定相机数据集 [8, 19, 62, 70]，还有同时包含自我中心视角和外部为中心视角视频的数据集 [37, 38, 109, 116, 119]。这些数据集要么记录在同一环境中 [52, 109, 119]，要么记录同一环境中时间同步的多视图视频，主要侧重于在 3D 世界落地的姿势 / 活动理解 [63, 116, 166]。

最近提出的 AE2 数据集 [154]，其目标是从未配对的自我为中心和外部为中心视频中学习视角不变的表示。该数据集结合了来自五个公共数据集 [22、24、61、63、167] 自我为中心和外部为中心的视频以及新收集的自我晚自习网球正手数据集。然而，由于难以关联现有的“自我-外部”数据集，AE2 数据集相对较小，其中最大的子集仅包含 322 个剪辑。此外，该数据集仅关注剪辑片段级动作，因此无法体现现实世界的演示设置，这通常需要多模态、以任务为中心的程序知识。

随着可穿戴相机 [120] 的最新发展，已经提出了多个自我中心视频数据集 [7、21、23、37、53、87、108、122、162]。

考虑了从日常食物制作到专门的实验室实验等程序性目标-导向任务。这一选择基于两个潜在区域的例证，其中未来具身 AI 智体需要桥接“自我-外部”活动的能力：日常生活协助和职业支持。具体来说，EgoExoLearn 包含 5 种日常任务（例如烹饪）和 3 种专门的实验室任务（例如固相肽合成）。在 4 个不同的厨房和 3 个不同的实验室中录制以自我为中心的视频。

每次数据收集环节开始之前，参与者都需要完成一份问卷，收集基本的人口统计信息和他们自我评估执行指定任务的专业知识。该问卷还强调了道德、隐私和安全方面的考虑。然后在每个环节中，参与者将被要求从提供的列表中选择一个或多个外向为中心视图演示视频，并仔细学习详细的程序。一旦他们准备好了，他们将戴上瞳孔隐形眼镜[56]，完成凝视标定，并开始复制演示视频中执行的任务。虽然不鼓励，但参与者可以在录制过程中回看演示视频。

每次录制结束后，都要求参与者重新进行凝视标定，确保凝视数据的保真度。对于 5 个日常任务，外部为中心演示视频是从 YouTube 等在线视频平台手动挑选出来的。对于实验室的实验活动，外部为中心演示视频是由资深实验室成员录制的教程。

如图显示了 120 小时数据的分布。由于大多数演示视频都经过精心编辑删除重复步骤，因此演示视频的平均长度低于记录整个过程的以自我中心视频。因此，EgoExoLearn 包含 432 个自我为中心视频，总时长 96.5 小时，以及 315 个演示视频，总时长 23.5 小时。

请添加图片描述

EgoExoLearn 数据集提供了一个更具挑战性和现实性的场景，其中以自我为中心的相机拍摄者学习完成外部为中心演示视频所演示的任务。此设置通过关注高级的程序动作来补充这些数据集。

EgoExoLearn 规模大（剪辑片段比AE2数量多 100 倍），同时提供凝视和细粒度多模态注释，促进对“自我-外部”动作理解的多方面分析。
EgoExoLearn 中的自我中心视频具有演示跟随设置。EgoExoLearn 提供了一个开发工具的游乐场，桥接从自我中心和外部中心视角拍摄的异步程序活动。

如表所示EgoExoLearn与相关数据集在设置（左）和注释（右）方面的比较。“独一的小时数”是指不同视频录制的累计时长，仅计算一个摄像机对同一活动同时录制的镜头。

请添加图片描述

如表所示是当代以自我为中心的视频数据集。为了公平比较，只展示了精细级的动作。对于 Ego4D [37]，选择了最接近 [116] 的“预测”子任务。

请添加图片描述

硅谷秋水

关注

14
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
EgoExoLearn：一个桥接现实世界中程序活动的异步以自我为中心和以外部为中心视图的数据集

24年6月来自上海AI实验室的论文“EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World”。
复制链接

扫一扫

专栏目录