1、简要
人像抠图中,前景预测背景替换是至关重要的。商汤等提出的只需单张图像、单个模型的方法 MODNet、华盛顿大学单块 GPU 实现 4K 分辨率每秒 30 帧的 Background Matting 2.0等也是效果不错的抠图方法。但这些方法或多或少都有其局限性。
谷歌的研究者提出了一种新的人像重照明和背景替换系统,对图像背景进行替换。其中生成的肖像图的光照与新背景保持一致,还能有效地去除图片中的强光,对细节恢复较好。该系统不仅保留了高频边界细节,并精确地合成了目标人像在新照明下的外观,从而为任何所需场景生成逼真的合成图像。
该研究的核心是通过前景蒙版(alpha matting)、重照明(relighting)和合成(compositing)进行前景估计。
论文中表示,每个阶段都可以在一个连续的 pipeline 中处理,无需使用先验知识(如已知背景或已知照明),也无需专门的采集技术,仅使用单个 RGB 肖像图和新的目标 HDR 照明环境作为输入。
模型训练中使用到了光阶段计算照明( light stage computational illumination )系统捕获的重照明肖像图,该系统记录了多种照明条件、高质量几何形状和精确的前景蒙版。
为了实现真实的重照明合成,研究者在深度学习框架中引入了一种新的每像素照明表征,它显式地建模肖像图外观的漫反射和镜面反射组件,生成了具有绝佳渲染非朗伯效果的重照明肖像。
2、框架
(1)框架步骤:
(1) matting 模块根据给定的 RGB肖像图估计前景蒙版和前景
(2)估计的前景和目标 HDR 照明环境馈入重照明模块,该模块负责推理表面几何形状和反照率,并使用每像素重照明表征来显式地建模着色后外观的漫反射和镜面反射组件。
(3)前景蒙版、重照明结果和新背景合成在一起,生成了一张具有新背景的重照明肖像图,并且肖像图的光照条件与新背景保持一致。
(2)重照明模块步骤:
(1)使用几何网络(Geometry Network)来估计输入前景的每像素表面法线。
(2)利用表面法线和输入前景来生成反射率Albedo。
(3)使用扩散和镜面卷积运算对目标 HDR 照明环境进行预过滤
(4)通过表面法线或者反射向量对预过滤后的 map 进行采样,从而生成目标照明(光照图)漫反射和镜面反射的每像素表征。
(5)使用着色网络(Shading Network)生成最终的重照明前景。
(3)着色网络步骤:
(1)首先,使用镜面网络(specular network)来预测单个镜面光照图,并作为输入。
(2)然后,将预测得到的镜面光照图与漫反射分量和反射率连接,并经由最终的神经渲染网络生成重照明前景。
(3)最后,使用神经渲染器执行实际的图像合成,研究者利用神经渲染器补偿近似(approximation)以及预测到中间图像中的任何残差。
3、实验及效果对比
从重照明效果和 matting 模块效果两个方面将提出的方法和 SOTA 方法进行了比较。
(1)重照明效果的对比
该研究将重照明模块与两种 SOTA 单幅肖像重照明方法进行了比较:对于在光照阶段拍摄的评估对象,该研究有真实重光照结果,可以对不同技术进行定性和定量比较。定性结果如下图所示,所提出的方法优于以前 SOTA 方法,增加了照片的真实性。
该研究所提出的方法在肖像重照明任务的每个指标上都优于 SOTA 技术。
研究者还比较了在任意光照条件下拍摄的户外人像的不同方法,其定性结果如下图所示。结果表明,该方法在从输入图像(第一列)中去除强光高光方面特别有效,并且可以很好地泛化到户外图像。
(2)Matting 效果对比
研究者将提出的方法与Li and Lu[2020]和Xu[2017]等人的方法进行了对比。
这种尤其针对人像训练的方法要优于以往的预训练方法。下图中展示了定性结果,该研究提出的方法能够恢复更清晰的边界和精细的细节,从而获得更精确的前景蒙版。