论文笔记: NSG: Neural Scene Graphs for Dynamic Scenes

1.目标:

对动态场景进行渲染,完成动态前景与背景分离、背景inpainting、动态前景编辑和新视角生成。

2.动机:

之前的方法如nerf只能够渲染静态场景(利用的是静态场景在多视角下的一致性),如将整张图像场景中的所有物体编码进单个神经网络中,缺乏表征动态物体和将这些物体分解为单个物体的能力。

3.贡献:

1、提出了一种新的神经渲染方法,将动态的多目标场景分解为一个具有,经过解耦的目标运动与场景表征,的场景图。

2、直接从一个序列的视频帧与对应的跟踪数据中学习每个场景中节点(物体)的表征。并对一类实例(如卡车,汽车)使用共享的体积表征。

3、能够给完全不可见的动态物体渲染新视图,例如在一个场景中加入该场景中不存在的动态物体。

4、能够通过逆渲染方式完成3D目标检测。

4.方法:

1.场景图定义:

定义了一个场景图S:

其中W代表世界节点,C代表相机节点,F代表物体类别,包含了静态背景与每个类别的动态目标,L代表每个具体物体的表征latent,,E代表不同节点之间的仿射变换,如局部和全局坐标系之间的变换。

由于同一个类别共享一种外形,所以对于每个具体个体需要计算一个尺寸变换参数S0,用于表达每个具体物体的外形尺寸。

2.网络结构:

使用单个nerf模型对静态背景进行统一的建模表达;对动态物体进行类别级nerf建模表达,即每个类别的物体对应一个独立的模型;对每个具体的动态个体,加入表征个体信息的隐变量L与P。L可以理解为该物体的具体外形shape,P可以理解为该物体的具体外观appearance。

动态物体局部的3D坐标(修正并与物体的姿态对齐)可由全局坐标经过变换得到:

其中T是变换矩阵,S0是尺寸变换参数,采用的是每个物体bounding box的尺寸的倒数。这样可以使得网络能够学习到不依赖于尺寸的相似性。

渲染的pipline和流程:

1.用场景图对场景进行建模。

2.采样光线的路径上对点进行采样,落在动态物体bounding box内的为动态前景采样点,其它的为静态背景采样点。

3.对每个采样点使用对应的nerf模型进行体密度和RGB预测,并经过体渲染获得每条光线的最终RGB值。

静态背景:

初始(t=0)相机坐标系下,near clip 和 far clip 之间定义与图像平面平行的N个等距平面,对于任意一条光线,背景节点采样点是光线与逐个平面的交点。

动态物体:

首先把光线变到物体的local坐标系,然后计算每条射线方向和所有动态物体的bbox交点的起点与终点,然后在起点与终点之间采样Nd个点即为采样点。

3.结果:

能够实现动态物体的旋转平移,并尽量保证光照和阴影的保持与变换。

能够实现场景的编辑,如动态车辆的加入,移除,排列等。

在定性结果和定量指标中,均能获得sota效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值