3D语义场景图论文小记

最新推荐文章于 2023-12-11 17:33:29 发布

花生啤酒八宝粥

最新推荐文章于 2023-12-11 17:33:29 发布

阅读量1.5k

点赞数 3

分类专栏： slam 文章标签：自动驾驶 3d

本文链接：https://blog.csdn.net/weixin_43823054/article/details/105827406

版权

slam 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

3D Scene Graph 论文整理

本文会继续更新3D场景图方面的相关内容。

【2019-ICCV 】3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans 【网站】

该论文出自斯坦福大学李飞飞团队，提出了对于3D空间、语义和相机的统一框架，本质是将2D关系数据集Visual Genome拓展到了3D空间，构建的框架图层次如下所示：

该框架主要由四层组成，最下面一层为以建筑物为节点的建筑层，包含了建筑物的类别及属性；往上一层为room层，以每个房间为节点，包含了房间的类别及属性；再往上一层为object层，包含了房间中的每个object的属性及相互关系（包括属于哪个房间的关系）；最上面一层为在相机视角下看到的object层，该层只包含在某一位姿下，相机看到的object的属性及关系。整个层次架构比较符合人类的思维和感知方式。

该统一表示的构建过程主要通过（1）通过全景图像训练2D网络，和（2）通过多视觉一致性进行场景图构建。在训练2D网络时，主要采用了Mask-RCNN获取轮廓，然后用多视觉一致性进行合并。文章还提到了使用亚马逊众包服务进行标注，应该是为了标注空间中出现的关系和属性信息。在该架构中，关系被定义为多种类型，如相对大小、相对位置、遮挡、相邻、是否在同一房间等，且不同架构层次间的关系不同，非常丰富；对于属性的标注包含了功能性属性、类别、区域、位姿、mesh分割结果、大小、纹理、体素占用等，同样非常丰富。在Gibson数据集上生成的场景图也比较炫酷：

整篇文章的思想非常好，通过这种架构可以描述更多现有的表示方式无法表达的信息，但是对于场景图的生成需要经过标注，且整个过程基本是在扫描完全部场景后才进行解析构建，不能实时构建；同样，对于动态环境也没有进行相应处理。该文章还提到，这种节点表示的环境表达方式，更适合机器人导航任务中对环境的理解，由于环境抽象为节点和边，更有利于机器人在不同环境中的泛化能力，但是并没有给出机器人实际应用的实例。
【2019 Trans on cybernetics】 “3-D Scene Graph: A Sparse and Semantic Representation of Physical Environments for Intelligent Agents”

由于现有的环境表示方法，大多只是构建环境的尺度地图或语义地图，并不适用于机器人在3D空间中的任务执行，该文章提出了一种新的三维场景表示方式，即使用节点和边，构建3D环境下的场景图，每个节点表示场景中的物体和属性（颜色，位置），每条边表示物体之间的关系。整个系统框架如下：

在这里插入图片描述

该系统在使用首先对输入的图像（不知道为啥选ScanNet数据集，图像都有点模糊）进行去噪，然后使用ElasticFusion和BundleFusion进行位姿估计（当然数据集里包含位姿），再进行关键帧的选取，通过Fast-RCNN进行目标检测，并使用Factorizable Net (F-Net)进行关系检测（其实本质上还是检测的2D图像中的关系，只是将该关系直接作为3D场景的关系）。将检测信息经过虚假检测筛选后组合为局部场景图，然后通过相同节点检测（即分别对两个物体的类别、位置和颜色的相似度进行加权求和，满足一定阈值即为相同节点）进行合并与更新。

在实验验证中，主要验证了精度和适用性两方面（按论文中说，其图结构的稳定性和可拓展性早已被大范围的使用所验证）。该论文使用了ScanNet数据集进行测试，并通过人工评定的方式对实验结果进行判断，主要验证了3D场景图生成的精度。实验结果如下：

在这里插入图片描述

对该实验进行复现时，并没有取得论文中所展示的简介效果，而且该数据集场景中的物体复杂性远大于该图示，后面邮件咨询作者，作者解释该实验结果仅使用的该数据集中的部分数据。

对于场景图的适用性的验证，分别利用场景图进行了VQA与任务规划（通过将3D场景图转化为PDDL的输入格式）。

在这里插入图片描述

这个demo还比较有意思，其实本质上是调用了PDDL任务规划器的接口，作者只是验证了该3D场景图的表示方式，更容易转化为任务规划器的接口，从而更方便机器人对3D场景进行任务的执行。

该论文作者后面还提出四个方面需要解决的问题：

动态场景。现有场景图构建只针对静态场景，对于如何考虑动态目标（比如人），将更有利于机器人执行任务时对人的安全性。
提升精度和效率。对于框架中的每个模块（位姿估计、目标检测等）都可以进行改进提升，虽然现有的工作可以实时运行，也是只处理关键帧才可以，后面还有很大的性能提升空间。
架构提升。通过端到端的框架，或者整合多个模块为一个的形式是可能的。例如通过多任务学习等方法进行整合。
应用场景。该场景表示方法可以用于盲人对周围场景的理解，从而避免可能的危险；可以帮助3D场景的稠密重构；VQA增强问答功能；任务规划功能也可以更好的拓展。

3.【2020 ArXiv】3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans

该论文在前两篇论文的基础上，提出了动态3D场景图的概念。效果可以参考。该框架的形式如下：

在这里插入图片描述

该框架参考了论文一中的层次架构，整个层次分为建筑层（B），房间层（R），房间结构层、物体及智能体层和语义mesh层；同时，该框架的构建也如论文二具有较高操作性，无需人工标注。按照论文所说，这四层结构的确定是根据任务来的。该框架是在Kimera感知框架的基础上建立的，相当于早就把场景语义分割信息处理好了，只是拿过来提取一下即可，当然其中新增了通过聚类对房间范围的感知：

在这里插入图片描述

与前两篇文章最大的不同在于，该框架加入了动态目标（主要是人）的检测与追踪，从而消除动态变化的影响：

在这里插入图片描述

该文章的实验也是在仿真器中进行，测试了其robustness和expressiveness。这种规模的框架在实际场景中确实很难做实验，其实整个文章还是比较理想的，相当于在一整个仿真环境中监视环境的变化（行人运行），从而可以随时追踪其轨迹：

在这里插入图片描述

然而在实际环境中，除非在整个空间布满摄像头，不然不可能如此全方位的检测环境中的动态变化（最理想的情况也就是一个机器人带着摄像头一直跟着一个人，才有可能较全面的更新场景表示，但是动态场景肯定不止一个动态目标）。因此在针对机器人实际任务方面，还是存在很多问题。

在文章的最后，作者提出了四个未来的发展规划，分别是将这种场景表示框架应用于机器人决策规划、人机交互、长期自主运行及场景情况预测。在仿真场景这种全观察的环境下，可以完美构建该框架，对于这四个问题可以深入展开；但是在真实场景这种部分可观测环境中，往往很难做到全面构建该框架和实时更新该框架，对于后面的应用问题也因此较为困难。

【2019】Deep Neural Network-Based Scene Graph Generation for 3D Simulated Indoor Environments

该论文是一篇韩文论文，但是其3D场景图的构建思路还是非常好的。论文中提出，3D场景信息不止包含目标类别，位置和属性也是非常的重要。3D场景图的构建可以用于视觉问答和服务机器人的任务规划。该框架主要围绕目标检测网络ObjNet、属性检测网络AttNet和关系检测网络（转换TransNet和预测RelNet）三个部分进行构建。整体框架如下：

后面内容主要围绕ObjNet、AttNet、TransNet和RelNet进行展开。

其中，ObjNet主要使用了Yolov3；AttNet网络如下所示：

TransNet网络主要用于得到物体的3D bounding box：

而RelNet网络则用于结合前面的检测结果，输出最终的场景图：

实验结果如下图所示：

该论文存在的问题：
1. 实验结果只针对单一图像进行场景图构建，没有涉及整个场景图的构建与更新；
2. 关系检测只有相对于相机的空间关系，并不包含语义关系；
3. 对于场景中物体间的几何关系检测，使用基于规则的方法应该比使用网络训练更加方便；
4. 没有涉及前面论文提到的场景层次结构和动态目标处理，属于最开始提出来的初步成果。

花生啤酒八宝粥

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
3D语义场景图论文小记

3D Scene Graph 论文整理本文会继续更新3D场景图方面的相关内容。【2019-ICCV 】3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans 【网站】该论文出自斯坦福大学李飞飞团队，提出了对于3D空间、语义和相机的统一框架，本质是将2D关系数据集V...
复制链接

扫一扫