23年10月来自澳大利亚国立、牛津大学和北京智源的论文“3D-GPT: Procedural 3d Modeling With Large Language Models“。
在追求高效的自动化内容创建的过程中,程序化生成、利用可修改参数和基于规则的系统,是一种很有前途的方法。为了减少工作量,作者引入3D-GPT,一个利用大语言模型(LLM)进行指令驱动的3D建模框架。3D-GPT将LLM定位为熟练的问题解决者,将程序化3D建模任务分解为可理解的部分,并为每个任务指定合适的智体。
3D-GPT集成了三个核心智体:任务调度、概念化和建模智体。三者合作实现了两个目标。首先,它增强了简洁的初始场景描述,将其演变为详细的形式,同时根据后续指示对文本进行动态调整。其次,它集成了程序化生成,从丰富的文本中提取参数值,从而与用于资产创建的3D软件无缝对接。实证研究证实,3D-GPT不仅解释和执行指令,提供可靠的结果,而且与人类设计师有效合作。此外,它与Blender无缝集成,解锁了更大的操作可能性。
如图所示:3D-GPT采用LLM作为具有三个协作智体的多智体系统来进行程序化3D生成。这些智体从程序化生成器中查阅文档,推断函数参数,并生成Python代码。生成的代码脚本与Blender的API接口,用于3D内容创建和渲染。
在框架中,使用Infinigen(Raistrick2023),一个基于Python Blender的程序化生成器,配备了丰富的生成函数库。为了使LLM能够熟练利用Infinigen,为每个函数提供重要提示。这些提示包括函数文档、易于理解的代码、所需信息和使用示例。
向LLM提供这些资源,能够利用其在规划、推理和工具利用方面的核心能力。因此,LLM可以无缝高效地利用Infinigen进行基于语言指令的3D生成。
在工具准备时,3D-GPT采用多智体系统来处理程序化的3D建模任务。该系统包括三个集成智体:任务调度、概念化和建模智体,一起将程序化的三维建模任务分解为可管理的部分,每个智体专门从事不同的方面:三维推理、规划和工具利用。
任务调度智体在规划过程中起着关键作用。它利用用户指令来查询功能文档,然后选择执行所需的功能。
一旦选择了功能,概念化智体就开始进行推理,丰富用户提供的文本描述。
在此基础上,建模智体推导每个选定函数的参数,并生成Python代码脚本,调用Blender的API,从而促进相应3D内容的创建。此外,可以使用Blender渲染功能渲染图像。