DiPIR——把科幻带进现实，实现虚拟对象映射到真实图片与视频中

人工智能研究所

于 2024-09-17 11:19:36 发布

阅读量312

点赞数 6

文章标签：人工智能 DiPIR 计算机视觉虚拟现实

本文链接：https://blog.csdn.net/weixin_44782294/article/details/142312688

版权

DiPIR：从单个图像推断真实世界的环境条件，从而可以将虚拟物体插入图像或视频中，使它们在场景中看起来像真实的一样。该模型旨在解决将虚拟物体插入图像或视频中的问题，使它们看起来像是真实存在于场景中。传统方法在处理光照、阴影和反射时通常无法实现完全的真实感。而DiPIR技术，可以将任意虚拟物体插入到图片或视频中，并使其融入原始图像或视频中，使其看起来像是真实存在于场景中。

动图封面

DiPIR特别适用于室内外的图像或视频，可以自动调整物体的材质和光照，使其与场景自然融合。实验结果表明，DiPIR在多个测试场景中表现良好，生成图像非常逼真。
DiPIR的技术方法

虚拟场景构建
3D场景建模： DiPIR根据输入图像创建虚拟3D场景，包括场景中的虚拟物体和代理几何体（如地面等），用于捕捉阴影、反射等光照效果。用户可以手动指定物体的位置，也可以通过检测场景中的地面或使用深度数据自动确定物体位置。
从输入图像开始，首先建立包含虚拟物体和代理平面的虚拟 3D 场景。该虚拟场景旨在模拟真实场景中的灯光、阴影和反射等。

物理渲染
使用基于物理的渲染器来模拟环境光和插入的虚拟物体之间的相互作用，以及这如何影响背景场景（例如阴影）。这一步的目的是生成物理上真实的渲染效果，让虚拟物体能够真实地融入到图像中。
前景渲染：使用基于物理的路径追踪算法渲染虚拟物体，并生成与场景光照一致的前景图像。这包括处理光照与物体材质之间的相互作用，例如反射、折射等。
阴影比例计算： DiPIR 计算虚拟物体在场景中投射的阴影，通过对比物体插入前后的场景亮度计算阴影区域光强的比例，以此比例调整背景图的阴影效果，使其与虚拟物体的插入效果保持一致。

扩散模型引导
个性化扩散模型：渲染后的图像被传递到个性化扩散模型。该扩散模型负责进一步优化图像，使虚拟物体与背景场景更加自然地融合。对预先训练好的扩散模型进行个性化，使其更适合特定的输入场景。扩散模型强大的图像生成能力用于指导照明和色调映射参数的优化。
在此过程中，扩散模型使用经过调整的分数来蒸馏梯度。反馈优化信息，帮助调整环境光照图和色调映射曲线。
分数蒸馏损失 (SDS)： DiPIR 引入了一种基于扩散模型的分数蒸馏损失，称为 LDS（LoRA 蒸馏采样），它通过场景相关的个性化扩散模型提供反馈信号，以优化虚拟对象插入的真实感。该损失函数通过计算个性化模型输出和非个性化模型输出之间的差异来指导渲染过程中的优化。

照明和色调映射优化
球面高斯光照模型：场景光照由多个球面高斯（SG）函数表示，这些函数经过优化，可以模拟场景中的环境光照。光照的方向和强度通过这组优化的参数进行表示和计算，确保虚拟物体能够与场景的光照条件相匹配。
双环境光图初始化：在优化初期，DiPIR 通过初始化两个独立的环境光图（一个用于前景物体，一个用于投射阴影）来处理光照一致性问题。在训练过程中，这两个图逐渐合并为统一的环境光图，从而获得更高的光照精度。
环境光融合的正则化：通过使用正则化项，DiPIR 确保照明的亮度和色调的一致性，同时抑制不必要的环境光，以产生更清晰的阴影和更逼真的灯光效果。
可区分的色调映射曲线：为了匹配输入图像的色调映射（通常由摄像头传感器确定），DiPIR 使用可优化的色调映射曲线来调整插入的虚拟物体及其投射的阴影。这些曲线经过优化，可确保虚拟物体的颜色和亮度与背景场景一致。
在整个迭代优化过程中，通过调整环境光照和色调映射曲线，最终恢复出能够与背景场景完美融合的光照和色调参数。这些参数确保虚拟物体在图片或视频中尽可能逼真。

动态场景处理
DiPIR 还可以处理在动态场景中插入虚拟物体。例如，可以对背景图像进行动画处理，或者移动虚拟物体的位置以创建动态场景效果。
多视图扩展
该方法还支持将虚拟物体插入到从不同视角拍摄的场景中，确保物体在所有视角下保持一致的光照和混合效果。

DiPIR 解决了以下关键问题：
估算单幅图像中的场景光照是一个不适定问题，尤其是对于动态范围较低的消费设备所捕获的图像。传统方法在处理这种复杂场景时通常表现不佳，导致插入的虚拟对象与真实场景不匹配。
灯光和阴影效果的真实感：虚拟物体插入需要准确的光照和阴影效果，包括阴影、反射等，以确保虚拟物体看起来像场景的一部分。尽管现有的扩散模型在图像生成方面功能强大，但它们在处理如此复杂的光照和阴影细节方面仍然不足。
个性化：通用的扩散模型往往不能很好地适应特定的场景，DiPIR对扩散模型进行了轻量化、个性化的调整，使其适应特定的场景，从而提高了插入效果的真实感。

动图封面

项目地址： https://research.nvidia.com/labs/toronto-ai/DiPIR/

论文： https://arxiv.org/pdf/2408.0970

更多transformer，VIT，swin tranformer
参考头条号：人工智能研究所
v号：启示AI科技

动画详解transformer 在线教程

人工智能研究所

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫