三维场景图：用于统一语义、三维空间和相机的结构

最新推荐文章于 2024-08-15 10:19:38 发布

wujianming_110117

最新推荐文章于 2024-08-15 10:19:38 发布

阅读量1k

点赞数

分类专栏： 3D&Display&渲染图像识别图像理解

吴建明

本文链接：https://blog.csdn.net/wujianing_110117/article/details/105407563

版权

该博客探讨了3D场景图在统一语义、3D空间和相机结构中的重要性。通过构建3D场景图，作者提出了一种半自动框架，以优化2D检测器性能并增强多视图一致性。3D场景图不仅提供稳定的语义信息，还能为图像和视频提供注释，同时减少手动劳动。博客中详述了方法、贡献及相关工作，展示了3D空间在存储和处理语义信息方面的优势。

摘要由CSDN通过智能技术生成

三维场景图：用于统一语义、三维空间和相机的结构

3D Scene Graph: A structure for uniﬁed
semantics, 3D space, and camera
在这里插入图片描述

论文链接：

http://openaccess.thecvf.com/content_ICCV_2019/papers/Armeni_3D_Scene_Graph_A_Structure_for_Unified_Semantics_3D_Space_ICCV_2019_paper.pdf

摘要

对场景的全面语义理解对于许多应用程序都很重要，但是在什么样的空间中，不同的语义信息（如对象、场景类别、材质类型、三维形状等）应该被固定下来，其结构应该是什么？我们希望有一个统一的结构，承载不同类型的语义，我们遵循三维场景图范式，生成一个三维场景图。给定一个三维网格和注册的全景图像，我们构建一个横跨整个建筑的图形，其中包括对象（例如类、材质、形状和其他属性）、房间（例如功能、照明类型等）和相机（例如位置等）的语义，以及这些实体之间的关系。然而，这一过程是令人望而却步的劳动繁重，如果手动完成。为了缓解这一问题，我们设计了一个半自动的框架，该框架采用了现有的检测方法，并使用两个主要的约束条件对其进行增强：

在全景图上采样的查询图像的框架，以最大限度地提高2D检测器的性能；
不同摄像机位置的二维检测的多视图一致性增强。
Introduction

语义信息应该建立在哪里，它应该是最有用和不变的结构？这是一个基本问题的内容，占据了许多领域，如计算机视觉和机器人。

游戏中有很多组件：物体和空间的几何结构，其中实体的类别，以及观察场景的视点（即相机姿势）。在这些信息可以固定的空间上，最常用的选择是图像。然而，为此目的使用图像并不理想，因为它呈现出各种弱点，例如像素对任何参数变化都有很大的变化，缺少对象的整个几何体，等等。

为此目的的理想空间应至少（a）尽可能多地保持不变，（b）容易且确定地连接到不同域和任务所需的各种输出端口，例如图像或视频。

为此，我们阐明，三维空间更稳定和不变，但连接到图像和其他像素和非像素输出域（如深度）。因此，我们在那里建立语义信息，并根据需要将其投影到其他所需的空间（例如，图像等）。具体来说，这意味着信息是基于建筑物的底层三维网格。此方法提供了许多有用的值，如自由三维、amodal、遮挡和开放空间分析。

更重要的是，语义可以投射到任何数量的视觉观察（图像和视频）上，从而为它们提供注释，而无需额外的成本。结构应该是什么？语义存储库使用不同的表示，如对象类和自然语言标题。与其他表示方法相比，场景图的思想具有许多优点，使其成为理想的候选对象。它能够包含比对象类（如ImageNet[14]）更多的信息，但它比自然语言标题（如CLEVR[22]）包含更多的结构和不变性。我们在基本的场景图结构（如Visual Genome[27]中的场景图结构）中增加了必要的3D信息，并生成了3D场景图。

我们将三维场景图视为一个分层图，每个层代表不同的实体：建筑、房间、对象和相机。可以添加更多层来表示语义信息的其他来源。与2D场景图类似，每个实体都增加了几个属性，并与其他实体连接，形成不同类型的关系。为了构建三维场景图，我们将最新的算法结合在一个主要的自动语义识别方法中。从二维开始，我们使用两个约束逐步聚合三维信息：框架和多视图一致性。每个约束都提供更健壮的最终结果和一致的语义输出。

本文的贡献可以概括为：

•我们将[27]中的场景图思想扩展到三维空间和地面语义信息。这为各种属性和关系提供了自由计算。

•我们提出了一种两步robusti fication方法，利用不完善的现有检测器优化语义识别，这使得主要是手动任务的自动化成为可能。

•我们使用3D场景图作为附加模式来扩充Gibson Environment的[44]数据库，并在3dscenegraph.stanford.edu上公开发布。
在这里插入图片描述