论文解读(16)-3D城市理解

最新推荐文章于 2024-08-06 16:20:45 发布

jiabooo

最新推荐文章于 2024-08-06 16:20:45 发布

阅读量646

点赞数 22

分类专栏：论文解读文章标签： 3d 论文笔记论文阅读

本文链接：https://blog.csdn.net/weixin_63767221/article/details/140946500

版权

论文解读专栏收录该内容

16 篇文章 0 订阅

订阅专栏

下面开始看3D城市方面
这是原文：
3D Question Answering for City Scene Understanding
(3D Question Answering for City Scene Understanding (arxiv.org))

摘要

目前对于3D模态的引入主要还是应用于室内和室外的活动（比如自动驾驶），因此3D辅助城市理解这块领域几乎是一片空白。所以就做了一个3D数据集和一种场景图增强的城市级理解方法（a Scene graph enhanced City-level Understanding method）

1. Intro

在这里插入图片描述

先讲了一下应用场景的不同，以前都是比较局部的，现在是针对城市这种宏观的概念

从两方面入手：
1）数据集：（City-3DQA）
包括城市级实例分割、场景语义提取、问答对构建

We realize data collection including City-level Instance Segmentation, Scene Semantic Extraction, and Question-Answer Pair Construction.

表示方式例子：

living building - left - business building
transportation building - usage - buying tickets

2）方法：a Scene graph enhanced City-level Understanding method (Sg-CityU)

Sg-CityU extracts the vision and language representation from point clouds and questions respectively. And then a city-level scene graph is constructed, which is encoded through graph neural networks

之后看图再详细讲这块

2. Related Work

city scene understanding
3D multimodal question answering

3. 问题定义

在这里插入图片描述

尽量让输出在语义上接近真值

在这里插入图片描述

最终用图来表示地理的特征

在这里插入图片描述

4. 数据集

1）City-level Instance Segmentation：首先将城市图像进行语义分割
最后分为在这里插入图片描述

i代表的是分割后的物体，x，y，z是坐标

2）Scene Semantic Extraction：
接下来，就是spartial information：
在两个物体之间加入位置信息：在这里插入图片描述

然后位置信息应该有八种：: “front”, “front-right”, “right”, “back-right”, “front-left”, “left”, “back-left” and “back”

语义信息：在这里插入图片描述

用这元组来表达在这里插入图片描述
，
然后涉及五个方面：instance label, building category label, synonym label, location, and usage label

3）Question-Answer Pair Construction
用上述的信息和模版来进行填充：
在这里插入图片描述

5. Method

5.1 Multimodal Encoder

多模态的encoder
用的是votenet做的backbone

在这里插入图片描述

然后用bert去处理问题的特征

在这里插入图片描述

这块是spatial的嵌入

5.2 Fusion

在这里插入图片描述

最后是输出

总体感觉挺简单粗暴的，但是在融合方面挺有意思

6. 结果

在这里插入图片描述

因为之前没有在city这样的规模上进行类似的任务，所以比较的都是一些通用模型，或者indoor模型

在这里插入图片描述

jiabooo

关注

22
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
论文解读(16)-3D城市理解

目前对于3D模态的引入主要还是应用于室内和室外的活动（比如自动驾驶），因此3D辅助城市理解这块领域几乎是一片空白。所以就做了一个3D数据集和一种场景图增强的城市级理解方法（a Scene graph enhanced City-level Understanding method）尽量让输出在语义上接近真值最终用图来表示地理的特征。
复制链接

扫一扫