简介
主页:https://sites.google.com/view/PAC-NeRF
涉及知识点:
- DVGO,使用网格加速nerf
- DiffTaichi,流体物理引擎(完全不懂,但大为震惊)
DiffTaichi大佬简述:99行代码的《冰雪奇缘》:https://zhuanlan.zhihu.com/p/97700605
从一组多视角视频中识别表征物理系统的参数,与现有的在图像上操作的系统识别方法不同,PAC-NERF不需要已知的物体几何形状
提出了 神经辐射场的混合欧拉-拉格朗日表示,使用欧拉网格表示NeRF密度和颜色场,通过拉格朗日粒子对神经辐射场进行平流,将高效的神经渲染与物质点法(MPM)相融合,用于鲁棒可微物理模拟
实现了括弹性体、橡皮泥、沙子、牛顿流体和非牛顿流体在内的大量材料上的几何和物理参数估计的有效性
实现流程
方法流程
- 通过4个同步的Intel RealSense D455相机组成的捕获系统(能够以640 ×
480分辨率和每秒60帧的速度流式传输RGB图像),得到视4个视频序列,并使用视频抠图技术对数据进行预处理,提取出感兴趣的前景目标。 - 使用4个视频序列的第一帧训练一个静态网格NeRF,类似DVGO,训练完成后,冻结权值参数。
- 在每个体素网格中随机采样8个粒子,通过特定公式将密度和颜色值绑定到粒子上,为每个粒子赋予一个标量值 α p \alpha_p αp,α值越低,对辐射场的贡献越小,当α小于固定阈值,则永久删除该粒子 p,即上图的 G2P 过程,得到 F 0 p F^p_0 F0p
- 将 F 0 p F^p_0 F0p 经过 P2G 得到 F 0 g F^g_0 F0g,从而得到了网格表示,通过带时间 t 参数的nerf 体渲染公式,合成视图与真实图像做损失,通过反向传播更新 DiffMPM
- 使用 DiffMPM 预测下一时刻粒子分布,重复步骤 4->5,直到视频最后一帧
CONTINUUM NEURAL RADIANCE FIELDS
输入是动态场景的多视角视频,目标是得到:
- 明确的几何表示
- 感兴趣的动态对象的物理属性(如杨氏模量、流体粘度、摩擦角等)
PAC-NeRF 由三部分组成:连续NeRF、粒子网格互变换器和拉格朗日场
时间相关NeRF公式:
目标函数,N 表示帧数
强制外观和体积密度场承认以底层物理系统的速度场为特征的守恒定律
D
ϕ
D
t
=
∂
ϕ
∂
t
+
v
⋅
∇
ϕ
\frac{D \phi }{ Dt } = \frac{∂\phi}{∂t} + v \cdot \nabla \phi
DtDϕ=∂t∂ϕ+v⋅∇ϕ是随时间变化的场
ϕ
\phi
ϕ(x, t)的物质导数,v 是速度场,对于连续介质,它必须遵守动量守恒
ρ是物理密度场,T是internal Cauchy stress tensor,g是重力加速度,上述公式通过 Material Point Method(MPM) 得来
PARTICLE-GRID INTERCONVERTERS
根据物质点法(MPM),拉格朗日表示是平流的理想表示,欧拉框架需要渲染平流粒子的状态到图像空间
因此,采用一种混合表示方法来融合两者的优点。一个关键需求是能够无缝地遍历欧拉(网格)视图 G 到拉格朗日(粒子)视图 P (反之亦然)。
时间 t 的场
F
∗
G
(
t
)
=
{
σ
(
x
,
t
)
,
(
x
,
t
)
}
F^G_*(t) = \{ \sigma(x,t),(x,t) \}
F∗G(t)={σ(x,t),(x,t)} 转换如下
i 代表网格节点,p代表粒子,
w
i
p
w_{ip}
wip是定义在节点 i 上并在粒子 p 处求值的三线性形状函数的权值
用 P2G 表示粒子到网格的转换过程,G2P 表示网格到粒子的转换过程
LAGRANGIAN FIELD
正向模拟的初始化需要生成 σ ^ \hat{\sigma} σ^ 和 c ^ \hat{c} c^ 的拉格朗日表示
在第一帧训练网格NeRF得到一个 欧拉体素场 F G ( t 0 ) F^G(t_0) FG(t0)
使用 G2P 转换为 拉格朗日粒子场 F p ( t 0 ) F^p(t_0) Fp(t0)
即,在每个体素网格中随机采样8个粒子,使用公式 5 将密度和颜色值绑定到粒子上,同时为每个粒子赋予一个标量值 α p = 1 − e − s o f t p l u s ( σ ^ p ) ∈ ( 0 , 1 ) \alpha_p = 1- e^{-softplus(\hat{\sigma}_p)} \in (0,1) αp=1−e−softplus(σ^p)∈(0,1),α 值越低,对辐射场的贡献越小,通过缩放物理密度场 ρ (公式(4))和物理应力场 T 的因子 α 3 α^3 α3,使 α 值较低的粒子更软,当 α p < ϵ m a x p α p \alpha_p < \epsilon max_p \alpha_p αp<ϵmaxpαp,删除该粒子 p,其中 ϵ = 1 0 − 3 \epsilon = 10^{-3} ϵ=10−3
初始物理参数集 Θ,通过公式 3 获得 t 1 = t 0 + δ t t_1 = t_0 + δt t1=t0+δt 时的 F P ( t 1 ) F^P (t_1) FP(t1), δ t δ_t δt 是每个模拟时间步长的持续时间
然后通过 P2G 过程 转换为 F G ( t 1 ) F^G(t_1) FG(t1),用于碰撞处理和神经渲染
渲染时间 t 的体积密度
σ
\sigma
σ ,颜色 c
σ
^
\hat{\sigma}
σ^是标量场,
c
^
\hat{c}
c^是向量场,Interp(
⋅
\cdot
⋅) 是三线性插值
平流是通过对网格进行平流来实现的,然后计算插值函数并评估MLP(或softplus)。
PAC-NERF FOR GEOMETRY-AGNOSTIC SYSTEM IDENTIFICATION
得到欧拉体素场后,采用体渲染公式得到渲染像素值,并与真实值计算损失,如公式二
当 t = 1 的时候,可以根据一组猜测的物理属性渲染未来的视频帧,继续计算与真实视频有关的误差项,并通过基于梯度的优化更新物理属性
出来像素损失以外,采用表面正则化器来正则化几何密度场
该正则化项最小化了总的曲面面积,如下图所示,通过使重建的点云更紧凑并更紧密地拟合地面真值边界,这往往会提高几何重建的质量
表面正则化器通过产生与分割掩模紧密贴合的形状,提高了重建质量。
为了尽量减少在未知初始条件下一个或多个感兴趣的变量变得不可观测的情况,使用前2-3帧来估计观测到的粒子的初始速度,优化每个后续帧的物理参数,为了减轻具有较大自由度的参数空间中的收敛问题,在第一次体素渲染之后热启动优化器,然后对整个序列进行优化是很有帮助的
IMPLEMENTATION DETAILS
第一帧使用Adam优化器的数据训练一个静态体素NeRF。
初始速度估计器使用L-BFGS,通过实验发现,对于这个子任务,L-BFGS比Adam更好。
对于所有感兴趣的其他物理参数,使用Adam优化器。
网格NeRF,采用 16 0 3 160^3 1603 个网格块,2层MLP,隐藏层128维,每个网格存储12维特征向量,将位置嵌入应用于输入(查询位置、视图方向和颜色特征),网络输入为39维
可微 MPM使用了 DiffTaichi
两个模型都是在单个 Nvidia 3090 GPU上训练,共训练1.5小时,模拟+渲染一帧需要约1秒
实验
总结
- PAC-NeRF可以仅从视频中恢复高质量的物体几何形状。
- 与完全学习的方法相比,PAC-NeRF在系统识别任务上的表现明显更好。
- PAC-NeRF减轻了其他技术所需的假设(即,已知的物体几何),同时优于它们。
- 纯粹基于像素的损失函数提供了丰富的梯度,可以进行物理参数估计。
PAC-NeRF 与 Particle view 对比
PAC-NeRF可以非常准确地估计物理参数。
对比实验
多视角LSTM方法改编自DensePhysNet ,并隐式学习从视频到物理参数的映射。值得注意的是,该基线需要训练序列形式的特权信息——其他方法不可用。
D-NeRF+Diffsim 改编自VEO ,其中前向变形场用于优化可微模拟。因此,这种方法的准确性依赖于学习到的前向变形场的质量。然而,这种学习到的变形场不能保证物理正确性,这与PAC-NeRF不同,后者受到守恒定律的约束(式(3)和式(4))。在实验中,观察到这导致了非常噪声的变形,并阻碍了系统的识别性能。
NeRF+∇Sim 基线仅支持弹性材料的有限元模拟,对时间积分步长敏感。为了稳定 symplectic FEM 和∇Sim中使用的contact model,需要数万个子步骤来模拟整个序列。尽管几何不精确和未知的渲染配置导致了错误,但长时间序列积累的错误也导致了∇Sim在场景中失败。具有欧拉-拉格朗日表示的PAC-NeRF在较大变形(例如流体和沙子)下具有更强的鲁棒性,并且比 symplectic integrator 的有限元模拟(在∇Sim中使用)允许更大的时间步长。
Oracle基线假设已知的3D(点云)几何形状,并计算每个时间步长的倒角距离误差项。令人惊讶的是,在一些情况下,像素级颜色损失优于这种3D监督信号。结果表明了可微渲染-模拟管道的有效性,其中2D像素级监督比3D Chamfer距离度量更好地优化了物理参数。
limitations
PAC-NeRF 假设有一组同步和精确校准的摄像机,以确保NeRF提供高质量的重建。
假设场景易于进行视频抠图(背景去除)或具有前景掩模。
假设潜在的物理现象遵循连续介质力学,不能自动区分不同的材料。
物质点法框架的扩展超出了体积连续体材料(例如,布等薄壳物体),用于刚性材料的隐式物质点法,以及集成其他可微模拟器(例如铰接体模拟器),都是未来工作的有趣途径。
与刚体的交互也可以在以nerf为代表的软体上实现操纵任务。