编辑:计算机视觉工坊
0. 这篇文章干了啥?
自动内容创作是计算机图形学的终极目标之一。数十年来,包括传统内容创作技术在内的诸多努力已投入该领域。最近,在大规模互联网图像数据集上训练的潜在扩散模型(LDM)取得了巨大成功,显著提升了生成模型的多模态表达能力。自此之后,人们不断努力将这种表达能力从二维图像扩展到三维模型。然而,由于数据集和计算资源的限制,三维扩散模型仍无法像其二维对应物那样实现类似的多样性和可扩展性。与此同时,研究人员转而从预训练的二维LDM中提取三维信息。一个典型的技术是DreamFusion,它使用评分蒸馏采样(SDS)优化神经辐射场。然而,该技术往往会产生与几何形状不自然的颜色外观。为了弥补这一差距,最新的纹理生成技术提出从深度条件化的预训练二维LDM中为给定三维模型提炼纹理图像。
我们的工作旨在从预训练的二维LDM中提取质量更高且一致的纹理图像。我们的关键技术挑战在于解决多视角一致性,即纹理应在所有相机视角下产生语义和视觉上一致的渲染外观。遗憾的是,由于多种原因,现有技术仍无法取得令人满意的结果。首先,早期的方法是对每个视角顺序进行去噪处理,这导致了次优结果。随后,Cao等人通过紧密耦合去噪过程与多视角融合来解决这个问题。他们选择使用带噪声的屏幕空间多视角图像在潜在空间中融合纹理。然而,由于不同视角的潜在代码在单独的去噪过程中被加噪,这种操作可能会对图像质量产生不利影响,甚至破坏一致性。此外,这些