0. 这篇文章干了啥?
三维内容创作领域在计算机视觉和计算机图形学领域内一直面临着复杂的挑战。随着时间的推移,已涌现出多种方法来应对这一挑战。生成三维模型的传统技术往往需要用户交互,通过如Blender等软件精心塑造场景几何形状和外观。另一个普遍的方法是利用多视图几何原理进行场景重建。这些方法已得到广泛采用,特别是在室内设计和计算机动画等行业,彻底改变了这些行业的工作流程和创意可能性。
随着深度学习的兴起,人们对开发数据驱动技术以自动化三维建模的兴趣日益浓厚。已有多种尝试直接从三维数据中学习来生成三维模型。然而,由于三维数据的稀缺性,人们非常关注通过学习不同模态(如图像和自然语言)来生成三维数据。已有研究表明,经过预训练的文本到图像的扩散模型可以作为强有力的先验,指导在DreamFusion中通过SDS损失优化由神经辐射场表示的三维模型,从而文本到三维的合成成为了一个有前景的研究方向。
尽管文本到三维的合成已展现出潜力,但在生成模型的保真度、多样性、收敛性和可扩展性方面仍面临挑战。为解决这些问题所做的努力包括增强损失函数,如ProlificDreamer,以及在ATT3D、ATOM、ET3D中的跨提示泛化,以及在DreamBooth3D中的个性化生成。然而,在当前的文本到三维方法中,多样性在很大程度上仍未得到充分探索,对其机制的理解也有限。
在本文中,我们探讨了增强文本到三维(text-to-3D&