Ai设计生成——2Dto3D图像生成模型应用研究

1.项目背景

随着生成式人工智能(简称:AIGC)技术在图像生成领域的快速发展,人物、场景原画、概念设计乃至建筑创意设计领域都受到了不小程度的冲击。以Midjourney与Stable Diffusion这两个代表性平台为例,在算力支持的情况下,AI出图能够高效地实现一定水准和范式的效果,甚至在创意维度也能产生意想不到的突破。而相较前者,StableDiffusion由于其开源框架及详尽的参数控制体系,在高适用性的ControlNet插件和多元的训练大模型的加持之下能够对图形生成实现更具控制性的出图效果,使得在与实际工作对接的场景之下更具优势,整体的创意性亦不输前者。

AIGC设计生成——从哆啦A梦到建筑(SD模型来源,自训练大模型 https://civitai.com/models/130811/hdarchimaster?modelVersionId=143619

本文旨在此基础上进一步拓展AIGC设计生成的边界,对现有的2Dto3D设计项目的技术实现进行拆解分析与探讨,理想目标是打通stable Diffusion创意出图——三维格式转化的全流程。

2.项目分析

2.1 Point-E

OpenAI发布的图像生成模型Point-E(项目下载地址:https://github.com/openai/point-e/blob/main/point_e/evals/feature_extractor.py),作为一个典型的三维图形生成器,能够实现直接由文本生成点云图形或图像生成点云图形的生成,且相对DreamFusion(多个GPU工作数小时)的计算效率具有鲜明优势,性能和时间消耗都较少(单个GPU几分钟内生成)。

如下图所示,项目在输入一些简单的物体描述词如“a traffic cone(交通锥)”能够实现基本形体与材质的形象生成,获得的点云数据导入三维模型平台能够实现相应三维实体的创建。

 项目局限性:该模型的生成质量有限,创作性一般,仅在简单几何形态的构建生成上达到基本需求,在稍复杂的形态上可用性不佳。

2.2 Shap-E

而近期OpenAI发布的升级模型Shap-E(项目地址:https://github.com/openai/shap-e)直接生成隐函数的参数来渲染纹理网格和神经辐射场,相比基于点云的显式模型生成模型的Point-E收敛速度更快,在更高维的多表示输出空间中实现了更好的样本质量,如下图所示,该模型相较于前者的复杂形态表达能力获得了明显进步。

 结合Shap-E的模型架构的相关分析可以了解到研究人员首先训练了一个编码器来生成相应的隐式表征(implicit representation),然后在编码器产生的潜表征(latent representation)上训练扩散模型,最后编码器与扩散模型产生的隐函数参数经过解码器渲染重构最终实现三维模型的生成。

工作流程(绘制by JingTing Wang)
2.2.1 项目拆解:

由于涉及到一系列具有一定门槛的背景知识,故在下文中做简短摘要:

3D编码器:

本质上是以一个已知三维资产的稠密显式特征来训练编码器,生成隐式函数的参数

图像编码器原理

可以看到给编码器提供相应的点云和三维资产的渲染视图,能够实现多层感知器(MLP)的参数输出,并将资产以隐式参数的形式表现。此外点云和3D渲染视图均需要通过cross-attention 进行处理,主干网络将其潜在表示作为向量序列进行生成。之后序列中的每个向量都会通过 bottleneck 及projection layer层,输出MLP权重矩阵中的一行。

基于NeRF渲染的解码器:

Shap-E只用NeRF渲染目标对编码器进行预训练,因为研究人员在实验中发现这个操作比基于网格(mesh-based)的目标更稳定,而且可以进行优化。

原始的NeRF公式除了在精模和粗模之间共享参数以外,同时为每个训练样本使用了4096条射线。最小化真实颜色和Nerf预测出来的颜色误差

另外,文章在每个光线的透视率上增加了额外的损失函数,通过射线的积分密度来给出粗略和精确的透射率估计,因此第二个损失函数可以写为:

最终NeRF的优化目标为上述两函数之和

基于STF渲染的解码器:

用来预测SDF值及纹理颜色,在实际能够进一步完善渲染细节质量,下图展示了两种渲染模式的相应渲染效果。

 

采用Transformer扩散结构 :

研究人员采用了Point-E的基于Transformer的扩散结构,不过用潜向量序列替代了点云。

潜表征为shape 1024×1024的序列,可以将其作为1024个token的序列送入Transformer,其中每个token对应于MLP权重矩阵的不同行。

故该模型在计算上与基本的Point-E模型大致相当(即具有相同的上下文长度和宽度),同时由于输入和输出通道的增加,在一个更高的维度空间中生成样本

项目测试:

经团队测试,项目能够实现将二维图像载入输出点云数据及一组多视角视图,但在精度和材质表现上有待提高,笔者尝试将简单的小木屋建筑作为输入图元数据,未能实现点云数据的生成

项目局限性:

相较于人工建模的精度与质量,Shap-E的生成效果仍具有相当大差距,对现有的如游戏场景、建筑设计等工业体系而言使用价值有限,能够完成一些小型构件的生成,但整体未来可期。

3.潜力与展望

整体看来,作为AIGC设计元年,AI出图已经百花齐放版蓬勃发展,在各个垂类领域都有相当出色的表现。而在更为复杂的三维形体生产上,当前的算力与发展仍具有一定局限,但相信随着产品开发与行业迁移应用的发展,2Dto3D应用能够接入现有的工业体系,进一步为设计、工程项目人员提供辅助性支持。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值