COM Kitchens：未经编辑的俯视视频数据集作为视觉-语言基准-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/141494801

24年8月来自OMRON SINIC X公司等几家日本研究机构的论文“COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark”。

程序化视频理解在视觉和语言社区中越来越受到关注。基于深度学习的视频分析需要大量数据。因此，现有方法通常使用网络视频作为训练资源，这使得从原始视频观测中查询指令内容具有挑战性。为了解决这个问题，提出了一个数据集，COM Kitchens。该数据集由智能手机拍摄的未经编辑俯视图视频组成，其中参与者根据给定的食谱进行食物准备。固定视点视频数据集通常缺乏环境多样性，因为摄像头设置成本高。用现代广角智能手机镜头以俯视图覆盖从水槽到炉灶的烹饪台面，捕捉无需亲自协助的活动。通过这种设置，将智能手机分发给参与者来收集多样化的数据集。有了这个数据集，提出视频-到-文本检索任务“在线食谱检索（OnRR）”和新视频字幕制作域“未编辑的俯视视频的致密视频字幕制作（DVC-OV）”。

数据集开源在 https://doi.org/10.32130/rdata.6.1
代码开源在 https://github.com/omron-sinicx/com_kitchens

利用原材料创造更高价值的产品是社会物质财富的基础。通过视频观察了解这些过程已引起计算机视觉界越来越多的关注 [3、6、17、22、37、40]。程序化视频分析的最新进展依赖于从网络 [30、57、58] 或通过自我为中心视觉 [6、11、14、37] 收集的大规模数据集。这些数据集在开发稳健技术和预训练模型方面发挥着至关重要的作用 [1、9、24-26、29]。固定视点观察是深度学习时代之前的主要视频格式 [22、43、46]。然而，在过去十年中，它很少受到关注，因为很难在网络上找到这种格式的视频。存在一个冷启动问题：足够的数据是实现基于原始视频检索系统的先决条件。一旦获得数据，系统就会鼓励用户上传未经编辑视频进行查询，从而增加数据集的大小。

为了克服这个冷启动问题，重新审视固定视点 (FV) 的未编辑视频数据集。为了有效地增强环境多样性，利用最近的硬件进步。现代智能手机配备经过良好标定的广角摄像头，可以从俯视视角捕捉大面积的工作区域。这样，无论厨房布局如何，都可以以最小的遮挡角度观察过程，这使其成为实际应用的首选。此外，人们熟悉智能手机的用户界面，无需亲自协助即可收集视频。

在这个深度学习时代，重新审视固定视点（FV）视频，其带来的挑战在于理解长程序上下文，而不是逐帧图像处理。为了解决这个问题，提供一个新的数据集 COM Kitchens，其中包含人工注释的视觉动作图 [44]，将视觉事件和文本说明用一个工作流图链接起来，如图所示。利用这种结构化注释，引入一种视频-到-文本检索任务“在线跨模态菜谱检索（OnRR）”和一个新的视频字幕制作域“未编辑的俯视图视频上的致密视频字幕制作（DVC-OV）”。

请添加图片描述

OnRR 是一种在线跨模态任务，用于在烹饪过程中检索相应的菜谱，旨在开发实用的智能手机应用程序。DVC-OV 是一种离线跨模态任务，可从演示生成指令性文本，旨在通过致密视频字幕制作（DVC）任务的传统格式来分析网页和俯视视频之间的域差距。

下表总结 FV 程序视频的数据集。它们都针对制造任务。在这些数据集中，COM Kitchens 在任务和环境中具有显著的多样性，并且是唯一具有语言注释的数据集。表中省略EgoExo4D [15] 数据集，它没有提供有组织的统计数据。其中时域剪辑片段类型分为动作（例如，“放碗”、“打鸡蛋”、“打鸡蛋”）和步子（更高级的动作）（例如，“在碗中搅拌鸡蛋”）。

请添加图片描述

Breakfast [22]、EgoExo4D [15] 和COM Kitchens 数据集，具有环境多样性，而其他数据集则在亲自技术支持的成本方面苦苦挣扎。Breakfast 数据集从 18 个环境（俯视图或侧视图）收集数据，但其任务仅限于两个沙拉食谱，只有 10 个动作类别。EgoExo4D 与 12 家机构合作，解决了高成本问题。在烹饪场景的环境和参与者数量方面，COM Kitchens 数据集与 EgoExo4D 具有竞争力，在任务（即食谱）方面则提供了更多种类。另一个区别是相机视图。EgoExo4D 从正面、侧面和背面视角使用多个摄像头，旨在捕捉厨房柜台以外的活动，弥合以自我中心和以外部中心视图之间的差距。相比之下，COM Kitchens 的设置可以捕捉柜台上详细的食物操作，从俯视图来观察，遮挡最少。

下表将COM Kitchens数据集与其他带有语言注释的程序化视频数据集进行比较。省略没有人工注释的视频数据集，例如 HowTo100M [30] 和 YT-Temporal-1B [55]，因为它们用于预训练，而不是用于下游任务。开创性的工作 YouCookII [57] 提供了粗略指令的语言注释（例如，“搅拌鸡蛋，面粉”），许多其他方法也遵循这种方式。Epic Kitchens 和 Ego4D 将旁白作为其语言注释，但它们倾向于描述每个动作的细节（例如动作名称和目标物体），这仍然类似于粗略指令。虽然程序化图像序列的字幕 [4,34,36] 使用商业菜谱网站作为生成精细指令的数据集资源（例如，“用搅拌器搅打蛋清，从慢速开始”），但与当前视频数据集的语言资源仍然存在差距。

请添加图片描述

BioVL2 [37]、FineBio [51] 和 VRF [44] 是具有精细指令的数据集，如同COM Kitchens。BioVL2 是一个罕见的数据集，用于捕捉生化实验，但其规模有限。FineBio 的总连续镜头比 BioVL2 大五倍，但其任务变化仍然有限，平均镜头长度比一般烹饪任务短。VRF 收集一分钟的视频，重点关注食物状态的变化，不包括人类行为。COM Kitchens 与基于网络的 VRF 数据集相比，具有 70% 的多样性，包括收集的平均 16.6 分钟长度未编辑视频。

检索是跨模态问题的基本任务之一。对于视频，视频文本检索 [5,25–27] 是主要的检索任务，即查找所有内容符合文本查询的视频。除了文本-到-视频的条件外，研究还经常评估视频到文本的场景；网络视频通常具有文本元数据，这使得视频-到-文本的评估不太实用。相反，OnRR 任务假设，通过原始视频中的文本去检索网络内容。由于COM Kitchens数据集来自智能手机，因此开发的技术应该直接适用于智能手机视频。

视频段落字幕是专门为程序视频设计的视频字幕任务；它假设事件片段是给定的 [23,35,42,50]。然而，对于未经编辑的视频，假设这样的给定事件片段，是不切实际的。因此，重点放在致密视频字幕制作 (DVC) [20,56] 上，这是事件检测和事件描述生成的联合任务，也是视频理解的一项基本任务。DVC 最近的主要挑战是抑制冗余检测 [12]。为了解决这个问题，人们研究了“检测-然后-描述” [8,41] 和“描述-然后-检测” [49] 方法。Vid2Seq [53] 的当前 SOTA 方法将片段作为一个时间token，与字幕一起输出来描述字幕并在一个阶段中检测事件。其性能得到了 YT-Temporal-1B [55] 这个最大视频数据集的支持。

用 Vid2Seq 测试COM Kitchens数据集，调查 Web 和 FV 视频之间的域差距。最显著的差距在于视频长度和重复动作。COM Kitchens 中的视频，平均比普通网络视频长约三倍（比 TikTok 风格的 VRF 长 20 倍）。这种差异主要是由于重复动作，而网络视频通常会消除这些动作。另一个差距是每帧内与事件相关的目标位置。在网络视频（或自我中心视觉）中，感兴趣的目标往往位于帧的中心，而 FV 视频不会动态聚焦于目标。这些重复和对重要目标的缺乏关注，给语言指令与视频事件对齐带来了额外的挑战。

COM Kitchens的工作，从 Cookpad 食谱数据集 (CRD) [16] 中挑选了用于拍摄烹饪过程的候选食谱。CRD 是一个全面的日本家庭烹饪数据库，包含超过 170 万份带有配料表的食谱。在选择过程中，优先考虑准备时间不到 30 分钟且复杂程度中等的食谱。排除使用柜台外设施（例如微波炉）的食谱，因为此类操作可以通过基于声音的事件识别来识别，而这不是工作重点。所选食谱通常但不限于欧洲、中国和日本料理（具有一定程度的本地化）。

为了收集视频，聘请了 110 名参与者。每位参与者在家录制了最多四份食谱。没有提供亲自指导，而是提供一份指令文件和视频，指导如何录制（例如，独自做饭、在哪里拍摄、相机模式和关闭电视）以及如何排除与隐私相关的信息（例如，不要与家人交谈，设置相机视图，不捕捉演员脸，并从相机视图中删除任何私人文件）。参与者签署了一份同意书，承认这些数据将公开用于学术目的。

使用固定在三脚架上的 iPhone 11 Pro，并使用后置摄像头录制视频。指示参与者将相机设置为 30 fps、全高清分辨率 1920×1080 和超广角视野模式（相当于 13 毫米焦距）。尽管采用超广角设置，但几乎没有失真；因此，没有应用额外的内参标定。

在录制的 410 个视频中，排除了所有忽略指令的视频，总共整理出 210 个视频。最常见的拒绝原因是错误的观察区域。第二个原因是无意中观察到演员的脸。考虑到参与者不是专业人士并且环境是私人的，尽最大努力避免涉及私人信息。

在 210 个可用视频中，注释了 145 个视频，总计 40 小时。将发布剩余的 85 个视频作为无监督资源。有两个视频以 60fps 录制；但是，将它们保留在数据集中，因为它们没有表现出任何质量问题。在实验中，用缩放到 640×480 分辨率的视频，但会一起公开发布原始分辨率的数据。

视觉动作图，将有意的动作（称为个人动作 (AP)）描绘成时域图格式。在这里，AP（又名厨师的动作 [32]）是指人类对食材的动作，例如切割或搅拌，而不是自然的过程，例如食材变褐，这些过程无需人工干预即可发生。

将 V 定义为数据集中的视频集，每个视频 v ∈ V 是 |v| 长的图像序列，表示为 v = {v1, v2, . . . , v|v|}。每个视频都与相应的程序化文本序列配对，表示为 t = {t1,t2,…,t|t|}。

将一对视频-文本的一个视觉动作图定义为 G(v,t) = (A,E)，其中 A 表示个人动作（AP）集，E 表示边集。ak 是程序化文本中的第 k 个 AP。将 ak 与视觉内容联系起来，涵盖执行 AP 的时间段和显示目标运动的边框，可以表示为

请添加图片描述

其中 wk 是 AP 的一个文字序列。由于视频的特性，ak 可能涉及多个目标实例和多个动作实例。Ak 将它们表示为视频中的一组动作。
视觉动作图中的节点是AP 中的边框。E 在整个烹饪活动中跟踪食材。这里，E 由动作内边和动作间边组成。动作内边始终处于同一动作中，可以根据共享动作索引 (k, r) 自动识别这些边，其中这些索引被标记为该注释目标的名称。

为了自动化动作内边的注释，用动作索引而不是食材名称标记每个边框。因此这种形式图中没有食材的信息。为了解决这个问题，手动将食材名称作为叶节点，并按照 VRF 数据集 [44] 将它们连接到首先处理食材的个人动作 AP（成分-动作边）。该方法通过将边追溯到叶节点，自然地表示在每个节点的食材组成。

如图所示视觉动作图的一个部分：AP7 由两个子 AP（7-1 和 7-2）组成。所有边框 (BB) 都标记食物（例如，AP7-1 中的目标 BB 是 AP6-1 中加热的油）。持续时间由子 AP 的第一个和最后一个 BB 定义。

请添加图片描述

在视频的标注程序，最初注释者审查视频并根据每个视频中的表现修改程序化指令文本。尽管指示要忠实地遵循食谱，但由于烹饪任务的复杂性，参与者经常会偏离。相反，用修改后的食谱来模拟遵循它们的参与者。同时，注释者识别并标记指令中的 AP。所有说明最初都是用日语编写的，并由专家翻译成英文。每个 AP 在日文和英文版本之间直接对应。

随后，注释者用边框划定每个动作的开始和结束时间，用计算机视觉注释工具 (CVAT)进行注释。每五帧检查一次视频，识别目标食材的清晰图像。

最后，注释者将运动间边分配给边框。在自动生成动作内边之后，构建视觉动作图。食材和食材-动作边，也与运动间边一起进行注释。总共注释 6,826 个边框和 8,061 个关系以创建视觉动作图。

在线菜谱检索 (OnRR) ，分析烹饪视频直至中点，确定菜谱类型和达到的烹饪阶段。如图显示了与此任务相关的数据：检索与视频内容一致的菜谱文本直至一个时间点 Z，使用视频片段直到最后一个开始的个人动作 AP Y，作为搜索查询。

请添加图片描述