Ego4D：3000 小时以自我为中心环游世界的视频

硅谷秋水

于 2024-08-23 00:07:36 发布

阅读量339

点赞数 6

分类专栏：计算机视觉机器学习文章标签：音视频计算机视觉深度学习机器学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/141355468

版权

机器学习同时被 2 个专栏收录

207 篇文章 1 订阅

订阅专栏

计算机视觉

96 篇文章 0 订阅

订阅专栏

22年3月来自Facebook FAIR 为首等众多研究机构的论文“Ego4D: Around the World in 3,000 Hours of Egocentric Video”。

Ego4D 是一个大规模的自我中心视频数据集和基准套件。它提供了 3,670 小时的日常生活活动视频，涵盖数百种场景（家庭、户外、工作场所、休闲等），由来自全球 74 个地点和 9 个不同国家的 931 名独特相机拍摄者拍摄。收集方法旨在遵守严格的隐私和道德标准，并在相关情况下征得参与者同意并采用强大的去识别程序。Ego4D 极大地扩充各种自我中心视频片段的公开数量。视频的某些部分配有音频、环境的 3D 网格、眼神注视、立体声和/或来自同一事件的多个自我中心摄像机同步视频。此外，提出一系列新的基准挑战，主要围绕理解过去（查询情景记忆）、现在（分析手-物操控、视-听对话和社交互动）和未来（预测活动）的第一人称视觉体验。

当今的计算机视觉系统擅长于互联网照片或视频片段中的命名物体和活动。过去十年来，它们的巨大进步得益于大量数据集和基准测试的努力，这些努力提供了在明确定义的任务上训练和评估算法所需的注释 [49、60、61、92、108、143]。

虽然这一进步令人兴奋，但当前的数据集和模型仅代表了视觉感知的有限定义。首先，当今有影响力的互联网数据集从第三人称“旁观者”视角捕捉短暂、孤立的瞬间。然而，在机器人技术和增强现实中，输入都是从第一人称或“自我中心”视角拍摄长而流畅的视频流——通过一个积极参与环境的代理眼睛看世界。其次，互联网照片是由人类摄影师有意拍摄的，而始终开启的可穿戴以自我中心相机拍摄的图像，缺乏这种主动的策划。最后，第一人称感知需要对相机拍摄者的周围环境有持久的 3D 理解，并且必须在人类的背景下解释物体和动作——关注人与物体的交互和高级社会行为。

如图所示数据集快照（5% 的剪辑，随机采样）：Ego4D 是一个大规模以自我为中心的日常生活活动视频数据集，涵盖全球 74 个地点。其突出了地理位置、活动和模态的多样性。

请添加图片描述

相关工作

过去带注释的数据集，既提出了计算机视觉领域的新问题，也确保了其可靠的评估。现有的数据集，如 Kinetics [108]、AVA [92]、UCF [207]、ActivityNet [61]、HowTo100M [157]、ImageNet [49] 和 COCO [143]，都专注于第三人称的网络数据，这些数据具有一个拍摄者的优势和偏见。相比之下，Ego4D 是第一人称。被动捕获的可穿戴相机视频，意味着不寻常的视角、运动模糊，并且缺乏时间管理。值得注意的是，使用第三人称数据 [70,221,224,239] 预训练以自我为中心的视频模型，存在相当大的域不匹配问题 [139, 201]。

以自我为中心的视频提出了许多有趣的挑战，例如人与物体的交互 [26, 46, 163]、活动识别 [110, 139, 243]、预测 [4, 75, 86, 144, 205]、视频摘要 [48, 129, 131, 147, 148, 232]、手部检测 [16, 134]、解析社交互动 [66, 168, 231] 以及推断相机拍摄者的身体姿势 [107]。

过去开发了多个以自我为中心的数据集。最相关的是那些包含非脚本日常生活活动的数据集，其中包括 EPIC-Kitchens [43, 44]、UT Ego [129, 210]、日常生活活动 (ADL) [179] 和迪士尼数据集 [66]。将相机交给参与者带出实验室，在 [66, 129, 179] 中首次提出。其他数据集是 (半) 脚本化的，其中指示相机拍摄者执行某项活动，例如 Charades-Ego [201] 和 EGTEA [138]。当今最大的自我视角数据集仅关注厨房 [44,44,124,138]，而 Ego4D 涵盖了室内和室外的数百种环境。此外，虽然现有数据集主要依赖研究生作为相机拍摄者，但 Ego4D 相机拍摄者的人口统计学范围要广泛得多。除了日常生活活动外，先前的 ego 数据集还关注对话 [170]、人际交互 [66, 168, 194, 231]、地点定位 [183, 208]、多模态传感器数据 [124, 166, 204]、人类的手 [16, 134]、人与目标交互 [106, 184] 和目标跟踪 [56]。

Ego4D 涵盖了数百种环境（而不是现有集合中的一种或几十种）；其视频来自全球 74 个地点和 9 个国家（而只有一两个城市）。Ego4D 注释的规模和深度也达到了前所未有的水平，数百万条注释支持多项复杂任务。

在Ego4D不仅希望收集大量的自我为中心视频，还希望确保其中的人物、地点、物体和活动的多样性。此外，为了真实起见，不关心长时间相机拍摄者拍摄的无脚本镜头。

为此，设计一种分布式数据收集方法。Ego4D 项目由来自 9 个国家和 5 大洲的大学和实验室 14 个团队组成。每个团队招募参与者每次相机拍摄 1 到 10 小时，在首次发布的数据集（Ego4D-3K）中，共有 931 名独特的相机拍摄者和 3,670 小时的视频。通过口口相传、广告和社区公告板上的帖子招募了 74 个城市的参与者。一些团队招募的参与者职业具有有趣的视觉背景，例如面包师、木匠、园丁或机械师。

团队的地理分布以及招募参与者的方法对于实现多样化的结构至关重要。参与者涵盖了各种各样的职业，跨越了多个年龄段，其中 96 人年龄超过 50 岁，45% 为女性。两名参与者被认定为非二类性别，另外两名参与者不愿透露性别。

哪些活动属于以自我为中心的视频数据集？受机器人和增强现实AR问题的影响，视觉系统会在这些领域遇到日常生活场景。因此，参考美国劳工统计局的一项调查，该调查记录了人们如何在家中（例如打扫卫生、做饭、做庭院工作）、休闲（例如制作工艺品、玩游戏、参加派对）、交通（例如骑自行车、开车）、个人差事（例如购物、遛狗、修车）和工作场所（例如与同事聊天、煮咖啡）度过大部分时间。

为了最大限度地覆盖这些场景，指导摄像拍摄者和完全不提供任何指导之间做出妥协：（1）招募的参与者，其集体日常生活活动自然会涵盖各种场景（由参与者自由选择），（2）要求参与者长时间摄像头拍摄（至少与设备的电池寿命一样长），以便活动可以在更长的背景下自然展开。数据集中一个典型的原始视频片段持续 8 分钟——比第三人称视频理解中经常研究的 10 秒视频片段长得多 [108]。通过这种方式，可以捕捉非脚本活动，同时关注场景的覆盖范围。

某些多人场景除外，为了确保有足够的数据用于视听和社交基准，要求五个地点的参与者同意分享他们的对话音频和未做模糊的面孔，参与社交活动，例如玩游戏。利用 Ego4D 的这一部分内容进行视听和社交互动基准测试。

如图显示数据集中捕获场景的广泛分布。请注意，在每个给定场景中通常会发生数十种动作，例如，木工场景包括锤击、钻孔、移动木材等。总体而言，931 名相机拍摄者为数据集提供了世界各地日常生活活动的一瞥。

请添加图片描述

为了避免模型过拟合单个捕获设备，在数据集中部署七种不同的头戴式摄像机：GoPro、Vuzix Blade、Pupil Labs、ZShades、OR-DRO EP6、iVue Rincon 1080 和 Weeview。它们在可用模态（RGB、立体声、凝视）、视野和电池寿命方面提供权衡。视野和摄像机安装尤其有影响：虽然安装在头上指向下方的 GoPro 可以提供物体操作手的高分辨率视图（如图右），但像 Vuzix 这样的平视摄像机可以共享人眼的视角，但会错过靠近身体的互动（如图左）： C = 摄像头拍摄者

请添加图片描述

除了视频之外，Ego4D 的部分内容还提供其他几种数据模态：3D 扫描、音频、凝视、立体声、多个同步可穿戴相机和文本叙述。如表所示。每种模态都可以支持新的研究挑战。例如，将 Matterport3D 环境扫描与自我为中心视频剪辑相结合，如图所示，其为理解持久 3D 环境中的动态活动提供了独特的机会。多个同步的自我中心视频流允许解释社交互动中的第一人称和第二人称视角。音频允许分析对话和声学场景和事件。

请添加图片描述

从一开始，隐私和道德标准对于这项数据收集工作就至关重要。每个合作伙伴都负责制定政策。

虽然 Ego4D 突破了多样化地理和人口统计学来源海量日常视频的极限，但数据集中存在一些偏差。74 个地点距离完全覆盖全球还有很长的路要走。此外，相机拍摄者通常位于城市或大学城地区。COVID-19 大流行导致居家场景（如烹饪、清洁、手工艺等）的镜头充足，而在大型社会公共活动中收集视频的机会则更加有限。此外，由于电池寿命不允许全天拍摄，这些视频虽然没有脚本，但往往包含参与者一天中更活跃的部分。最后，Ego4D 注释是由非洲两个站点的众包工作人员完成的。这意味着基于语言的叙述至少会以微妙的方式偏向当地的词汇选择。

鉴于视频长达 3,670 小时，Ego4D 的规模可能会成为某些研究人员的可访问性障碍，这取决于他们的存储和计算资源。为了缓解这种情况，采取多项措施。首先，为数据集提供了预计算的动作特征（针对 Kinetics 400 进行预训练的 ResNet 101 主干 SlowFast 8x8），这是任何下游工作的可选起点。其次，只有部分数据构成每个基准的正式挑战训练/测试集 - 而不是全部 3,670 小时。随着 Ego4D 注释的增加，创建标准化的mini集。最后，提供了仅下载针对单个基准或感兴趣模态数据的选项。

在进行任何其他注释之前，对所有视频进行叙述。受暂停和说话叙述者 [44] 的启发，注释者被要求观看一段 5 分钟的视频，用几句话总结一下，然后重新观看，反复暂停，写一句话来描述相机拍摄者所做的每件事。记录时间戳和相关的自由格式句子。每个视频都会收到来自不同注释者的两个独立叙述。叙述在时间上很密集：平均每分钟视频收到 13.2 个句子，总共 385 万个句子。总的来说，叙述使用 1,772 个唯一动词（活动）和 4,336 个唯一名词（目标）描述了 Ego4D 视频。

叙述能够 (1) 进行文本挖掘，以构建数据驱动的动作和目标分类法，(2) 按内容对视频进行排序，以将其映射到相关基准，以及 (3) 确定应在其中植入某些注释的时间窗。除了这些用途之外，叙述本身也是数据集的贡献，对于研究弱对齐自然语言视频具有潜在价值。

第一人称视觉有可能改变增强现实和机器人领域的许多应用。然而，与主流视频理解相比，自我中心感知需要新的基础研究来解释长视频、注意线索、人与目标的交互、多感官数据以及相机被动拍摄所固有的手动时间管理之缺乏。

受所有这些因素的启发，提出一套具有挑战性的基准任务。这五个基准解决第一人称视频的过去、现在和未来。参见下图。第一个数据集版本对每个基准 48-1,000 小时的数据进行注释，此外还有 3,670 小时的叙述数据。开发基线模型，借鉴文献中最先进的组件，测试所有 Ego4D 基准。
请添加图片描述

情景记忆

给定一个以自我为中心的视频和一个查询，Ego4D 情景记忆任务需要定位在用户过去视频中可以看到答案的位置。考虑三种查询类型。（1）自然语言查询 (NLQ)，其中查询以文本表达（例如，“我把什么放在抽屉里了？”），输出响应是可以看到或推断答案的时间窗口。（2）视觉查询 (VQ)，其中查询是目标的静态图像，输出响应在时间和空间上定位目标在视频中最后一次出现的位置。空间响应是目标的 2D 边框，以及可选的从当前摄像机位置到目标 3D 边框的 3D 位移矢量。VQ 捕获用户如何使用图像示例教系统一个目标，然后稍后询问它的位置（“[我的钥匙图片] 在哪里？”）。（3）时刻查询（MQ），其中查询是高级活动或“时刻”的名称，响应由活动发生的所有时间窗口组成（例如，“我什么时候给我的孩子读书？”）。参见下图。
请添加图片描述

手和目标

将目标状态变化解释为各种物理变化，包括大小、形状、成分和纹理的变化。目标状态变化可以从时间、空间和语义三个维度来看待，从而实现以下三个任务：（1）不归点（PRN，point-of-no-return）时间定位：给定一个状态变化的短视频片段，目标是估计包含PNR（状态变化开始的时间）的关键帧；（2）状态变化目标检测：给定三个时间帧（前、后、PNR），目标是回归正在发生状态变化的目标边框；（3）目标状态变化分类：给定一个短视频片段，目标是判定目标状态是否发生改变。参见下图。
请添加图片描述

音频-视频分类

音频-视频分类 (AVD) 基准由四个任务组成，参见下图所示：
在视野 (FoV) 中定位和跟踪参与者（即候选说话者）。每个参与者的脸部周围都标注了一个边框。
主动说话者检测，其中每个被跟踪的说话者都带有匿名标签，包括从未出现在视野中的摄像头拍摄者。
对每个说话者的语音活动进行分类，提供与剪辑片段中每个说话者语音活动相对应的时间段。
对每个说话者的语音内容进行转录（此版本仅考虑英语使用者）。

请添加图片描述

社交互动

虽然 Ego4D 数据集可以支持这样的长期研究议程，但最初的社交基准侧重于通过注意和语音，对对话互动进行多模态理解。具体来说，专注于识别针对摄像头拍摄者的交流行为，区别于针对其他社交伙伴的交流行为：(1) 看着我 (LAM)：给定一个视频，其中社交伙伴的脸部已被定位和识别，分类每个可见的脸部是否正在看着摄像头拍摄者；(2) 跟我说话 (TTM)：给定一个具有相同跟踪脸部的视频和音频片段，分类每个可见的脸部是否正在与摄像头拍摄者交谈。

预测

预测基准包括四个任务，如图所示：（1）运动预测：预测相机拍摄者未来可能的地面轨迹。（2）手部运动预测：预测相机拍摄者在未来帧中的手部位置。（3）短期目标交互预测：检测剪辑最新帧中一组未来可能交互的目标。为每个目标分配一个动词，表示可能的未来交互以及交互何时开始的“接触时刻”估计。（4）长期动作预测：预测相机拍摄者未来的动作序列。

请添加图片描述

附录：

数据集有两种类型的视频。第一种包括在室内录制的视频，其中明确收集场景中所有参与者的同意确定身份，包括面部和声音。视听分类和社交互动基准研究仅使用这种类型的视频。FacebookRealityLabs 收集的所有 400 小时数据都属于该类别。第二种，占视频的大多数，需要去识别化，因为未征得同意捕获身份——包括在公共场所户外拍摄的镜头。只有大学拍摄的视频都属于第二类。

下图是CMU去识别化的流水线：

请添加图片描述

硅谷秋水

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Ego4D：3000 小时以自我为中心环游世界的视频

22年3月来自Facebook FAIR 为首等众多研究机构的论文“Ego4D: Around the World in 3,000 Hours of Egocentric Video”。
复制链接

扫一扫

专栏目录