三维场景图:用于统一语义、三维空间和相机的结构

该博客探讨了3D场景图在统一语义、3D空间和相机结构中的重要性。通过构建3D场景图,作者提出了一种半自动框架,以优化2D检测器性能并增强多视图一致性。3D场景图不仅提供稳定的语义信息,还能为图像和视频提供注释,同时减少手动劳动。博客中详述了方法、贡献及相关工作,展示了3D空间在存储和处理语义信息方面的优势。
摘要由CSDN通过智能技术生成

三维场景图:用于统一语义、三维空间和相机的结构

3D Scene Graph: A structure for unified
semantics, 3D space, and camera
在这里插入图片描述

论文链接:

http://openaccess.thecvf.com/content_ICCV_2019/papers/Armeni_3D_Scene_Graph_A_Structure_for_Unified_Semantics_3D_Space_ICCV_2019_paper.pdf

摘要

对场景的全面语义理解对于许多应用程序都很重要,但是在什么样的空间中,不同的语义信息(如对象、场景类别、材质类型、三维形状等)应该被固定下来,其结构应该是什么?我们希望有一个统一的结构,承载不同类型的语义,我们遵循三维场景图范式,生成一个三维场景图。给定一个三维网格和注册的全景图像,我们构建一个横跨整个建筑的图形,其中包括对象(例如类、材质、形状和其他属性)、房间(例如功能、照明类型等)和相机(例如位置等)的语义,以及这些实体之间的关系。然而,这一过程是令人望而却步的劳动繁重,如果手动完成。为了缓解这一问题,我们设计了一个半自动的框架,该框架采用了现有的检测方法,并使用两个主要的约束条件对其进行增强:

  1. 在全景图上采样的查询图像的框架,以最大限度地提高2D检测器的性能;

  2. 不同摄像机位置的二维检测的多视图一致性增强。

  3. Introduction

语义信息应该建立在哪里,它应该是最有用和不变的结构?这是一个基本问题的内容,占据了许多领域,如计算机视觉和机器人。

游戏中有很多组件:物体和空间的几何结构,其中实体的类别,以及观察场景的视点(即相机姿势)。在这些信息可以固定的空间上,最常用的选择是图像。然而,为此目的使用图像并不理想,因为它呈现出各种弱点,例如像素对任何参数变化都有很大的变化,缺少对象的整个几何体,等等。

为此目的的理想空间应至少(a)尽可能多地保持不变,(b)容易且确定地连接到不同域和任务所需的各种输出端口,例如图像或视频。

为此,我们阐明,三维空间更稳定和不变,但连接到图像和其他像素和非像素输出域(如深度)。因此,我们在那里建立语义信息,并根据需要将其投影到其他所需的空间(例如,图像等)。具体来说,这意味着信息是基于建筑物的底层三维网格。此方法提供了许多有用的值,如自由三维、amodal、遮挡和开放空间分析。

更重要的是,语义可以投射到任何数量的视觉观察(图像和视频)上,从而为它们提供注释,而无需额外的成本。结构应该是什么?语义存储库使用不同的表示,如对象类和自然语言标题。与其他表示方法相比,场景图的思想具有许多优点,使其成为理想的候选对象。它能够包含比对象类(如ImageNet[14])更多的信息,但它比自然语言标题(如CLEVR[22])包含更多的结构和不变性。我们在基本的场景图结构(如Visual Genome[27]中的场景图结构)中增加了必要的3D信息,并生成了3D场景图。

我们将三维场景图视为一个分层图,每个层代表不同的实体:建筑、房间、对象和相机。可以添加更多层来表示语义信息的其他来源。与2D场景图类似,每个实体都增加了几个属性,并与其他实体连接,形成不同类型的关系。为了构建三维场景图,我们将最新的算法结合在一个主要的自动语义识别方法中。从二维开始,我们使用两个约束逐步聚合三维信息:框架和多视图一致性。每个约束都提供更健壮的最终结果和一致的语义输出。

本文的贡献可以概括为:

•我们将[27]中的场景图思想扩展到三维空间和地面语义信息。这为各种属性和关系提供了自由计算。

•我们提出了一种两步robusti fication方法,利用不完善的现有检测器优化语义识别,这使得主要是手动任务的自动化成为可能。

•我们使用3D场景图作为附加模式来扩充Gibson Environment的[44]数据库,并在3dscenegraph.stanford.edu上公开发布。
在这里插入图片描述

  1. Related Work

场景图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值