3D-GPT: 采用大语言模型的程序化3D建模

23年10月来自澳大利亚国立、牛津大学和北京智源的论文“3D-GPT: Procedural 3d Modeling With Large Language Models“。

在追求高效的自动化内容创建的过程中,程序化生成、利用可修改参数和基于规则的系统,是一种很有前途的方法。为了减少工作量,作者引入3D-GPT,一个利用大语言模型(LLM)进行指令驱动的3D建模框架。3D-GPT将LLM定位为熟练的问题解决者,将程序化3D建模任务分解为可理解的部分,并为每个任务指定合适的智体。

3D-GPT集成了三个核心智体:任务调度、概念化和建模智体。三者合作实现了两个目标。首先,它增强了简洁的初始场景描述,将其演变为详细的形式,同时根据后续指示对文本进行动态调整。其次,它集成了程序化生成,从丰富的文本中提取参数值,从而与用于资产创建的3D软件无缝对接。实证研究证实,3D-GPT不仅解释和执行指令,提供可靠的结果,而且与人类设计师有效合作。此外,它与Blender无缝集成,解锁了更大的操作可能性。

如图所示:3D-GPT采用LLM作为具有三个协作智体的多智体系统来进行程序化3D生成。这些智体从程序化生成器中查阅文档,推断函数参数,并生成Python代码。生成的代码脚本与Blender的API接口,用于3D内容创建和渲染。

添加图片注释,不超过 140 字(可选)

在框架中,使用Infinigen(Raistrick2023),一个基于Python Blender的程序化生成器,配备了丰富的生成函数库。为了使LLM能够熟练利用Infinigen,为每个函数提供重要提示。这些提示包括函数文档、易于理解的代码、所需信息和使用示例。

向LLM提供这些资源,能够利用其在规划、推理和工具利用方面的核心能力。因此,LLM可以无缝高效地利用Infinigen进行基于语言指令的3D生成。

在工具准备时,3D-GPT采用多智体系统来处理程序化的3D建模任务。该系统包括三个集成智体:任务调度、概念化和建模智体,一起将程序化的三维建模任务分解为可管理的部分,每个智体专门从事不同的方面:三维推理、规划和工具利用。

任务调度智体在规划过程中起着关键作用。它利用用户指令来查询功能文档,然后选择执行所需的功能。

一旦选择了功能,概念化智体就开始进行推理,丰富用户提供的文本描述。

在此基础上,建模智体推导每个选定函数的参数,并生成Python代码脚本,调用Blender的API,从而促进相应3D内容的创建。此外,可以使用Blender渲染功能渲染图像。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值