URBANWORLD：用于 3D 城市生成的城市世界模型

三谷秋水

已于 2024-07-30 21:01:21 修改

阅读量1k

点赞数 6

分类专栏：大模型人工智能机器学习文章标签： 3d 语言模型人工智能自动驾驶深度学习

于 2024-07-22 02:31:16 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/140597498

版权

大模型同时被 3 个专栏收录

718 篇文章

订阅专栏

机器学习

528 篇文章

订阅专栏

人工智能

420 篇文章

订阅专栏

24年6月来自清华大学和北京科技大学的论文“UrbanWorld: An Urban World Model For 3D City Generation”。

城市作为人类生活的最基本环境，包含建筑、道路、植被等多种物理要素，且相互关联复杂。构建逼真的交互式三维城市环境对于构建能够在现实环境中像人类一样感知、决策和行动的AI智体起着至关重要的作用。然而，创建高保真三维城市环境通常需要设计者大量的手工劳动，涉及复杂的细节设计和复杂城市特征的准确表示。因此，如何以自动化的方式实现这一点仍然是一个长期的挑战。针对这个问题， UrbanWorld 作为第一个生成式城市世界模型，可以自动创建具有灵活控制条件的定制化、逼真且可交互的三维城市世界。 UrbanWorld 在自动制作流程中整合了四个关键阶段：从可公开访问的 OSM 数据生成 3D 布局、使用强大的城市多模态大语言模型 (Urban MLLM) 进行城市场景规划和设计、使用先进的 3D 扩散技术进行可控城市资产渲染，最后是 MLLM 辅助场景细化。精心制作的高保真 3D 城市环境使通用 AI 和机器感知系统在模拟中能够实现真实的反馈和交互。

城市是最复杂的以人为中心的环境，其特点是结构错综复杂、要素多样、相互作用动态。创建近乎真实的 3D 城市世界环境是一项基本且关键的技术，可用于广泛研究和实际应用，涉及 AI 智体（Yang，2024）、城市规划（Schrotter & Hu ̈rzeler，2020）、城市模拟（Xu，2023）和元宇宙（Allam，2022）。传统上，实现这一点需要人类设计者在详细资产建模、纹理映射和场景合成方面投入高昂的劳动力成本。随着生成式 AI 的进步，出现了更多基于体渲染（Lin，2023；Xie，2024）和扩散模型（Deng，2023；Lu，2024）的 3D 场景生成自动化方法。这些方法彻底改变了 3D 场景生成的范式，减轻了手工设计的高成本。然而，制作出来的 3D 场景只是视觉上吸引人的视频，与真实的具身物理世界有很大不同。针对这一问题，最近出现了一系列被称为世界模型的方法，初步侧重于自动驾驶场景（Hu et al., 2023; Wang et al., 2023）。这些模型被证明具有理解场景动态和预测未来状态的能力，提升了 3D 场景生成的交互性。然而，所创造的城市环境与人类居住的现实城市世界之间仍然存在很大差距。总而言之，距离真正的“城市世界模型”还有很长的路要走，其定义为能够创建（1）逼真且具有交互性（2）可定制和可控制（3）能够支持具身智体学习的城市环境模型。

城市世界模型对于发展具身智能和通用人工智能 (AGI) 具有重要意义。首先，它有望弥合虚拟环境与现实世界之间的差距，使具身智能体能够与细节丰富、真实的城市环境互动并从中学习。其次，通过制作合成的 3D 城市环境，研究人员可以完全控制数据生成，并完全访问所有生成参数。因此，机器感知系统可以接受不适合在现实世界中进行或需要各种环境任务的训练。最后，复杂的城市世界模型可以模拟各种各样的环境，从繁华的市中心，到安静的住宅区，具有建筑物、道路和自然空间等物理基础设施的逼真视觉外观。这对于避免过拟合和在多样化和动态环境中创建具有高泛化智体至关重要。一些商业平台已经进行了一些初步探索，例如 Omniverse，这是一个用于创建和模拟详细 3D 世界环境的开放平台。然而，目前还没有专门的城市世界模型来构建交互式三维城市环境，这阻碍了现实城市环境中智体的发展。

如表所示：从文本可控、图像可控、创造性（即是否可以创建新资产）和体现/交互性（创建的城市环境是否具有物理交互性）四个方面对现有的3D城市场景生成方法与UrbanWorld进行比较。

请添加图片描述

构建“城市世界模型”主要面临三大挑战：高效的具身环境构建、专业的城市场景规划和高质量的纹理生成。针对这些目标，UrbanWorld 引入了四个关键组件：（1）OSM 引导的城市布局生成，这是一个基于全球开放的 OSM 数据的自动 2D 到 3D 转换模块，可以解决第一个挑战。（2）MLLM 赋能的城市场景设计，利用训练的城市 MLLM 卓越的城市场景理解能力，像人类设计者一样绘制合理的城市场景，以应对第二个挑战。（3）基于可控扩散的城市资产纹理渲染器，一种基于跟随定制提示3D 扩散的灵活城市资产渲染。（4）MLLM 辅助的城市场景细化，这是一个进一步改进场景设计的最终反思模块，其灵感来自人类设计者标准操作过程中的迭代修整。后两个组件有助于实现 3D 资产的高保真纹理，有效地应对第三个挑战。如图显示 UrbanWorld 的概览：

请添加图片描述

考虑到OSM数据的易获取性和全球覆盖性，UrbanWorld主要基于OSM开发，用于生成三维城市布局。OSM数据包含丰富的信息，主要包括道路、建筑物、植被、森林、水和其他基础设施要素的地理位置和属性。随后将所包含的建筑物、森林、植被、水和道路等城市资产分离为独立目标，以便随后进行元素级渲染。在此步骤中，UrbanWorld还记录了目标中心位置，以便进一步重组资产，使其与真实的城市布局相匹配。

为了有效地打造定制化的城市环境，UrbanWorld 集成基于大量城市街景图像数据训练的城市多模态大语言模型 MLLM。具体来说，首先在全球范围内收集城市街景图像，并使用 GPT-4 标记相应的文本描述，然后进行人工检查并过滤低质量数据。然后，基于从收集的数据集获得的大约 10 万个图像-文本对，对开源 MLLM、LLaVA-1.5（Liu et al., 2024）进行微调。已经验证，所获得的城市 MLLM 在图像字幕和场景分类等城市场景理解任务上具有出色的性能，因此可以有益于城市场景分析和设计。在 UrbanWorld 中，城市 MLLM 被引入充当类人设计者，自动起草高质量且详细的城市场景描述，确保城市场景在视觉上保持一致。具体来说，UrbanWorld 以用户的简单文本指令（例如，大学里的教学区）和所选的 OSM 布局图像作为输入，通过精心设计的提示调用城市 MLLM，并返回关于每个资产视觉外观和材质的各种详细描述。生成的资产描述将用作控制后续渲染过程的条件。

由于存在复杂的元素和关系，渲染大规模城市场景具有挑战性，而场景级渲染不可避免地会导致不匹配和低分辨率纹理。因此，遵循元素级渲染原则来确保渲染质量。同时，为了加快渲染过程，合并一些城市元素类型，最终定义了四个主要类型：建筑物，道路和小径，森林和植被以及水。用可控扩散方法实现渲染，该方法包括两个阶段：UV 纹理生成和纹理细化，如图所示。

请添加图片描述

城市资产渲染完成后，UrbanWorld 会根据从真实 OSM 数据中提取的位置信息，自动重组资产，有效恢复城市原始布局。这受到人工设计的标准操作流程启发，专家会纵览场景并进行细微调整。为了模仿这种努力，UrbanWorld 再次启动城市 MLLM，仔细检查制作的 3D 城市场景和纹理细节。提示 MLLM 识别场景图像与之前的设计提示之间的不一致之处，并检查纹理是否与现实世界一样逼真。最后，城市 MLLM 将提供进一步细化的复杂建议，包括需要修改的元素和细化的设计提示。然后，渲染模块将被激活，所涉及的元素将在细化的文本提示下进行渲染并在场景中更新。通过这样的细化过程，UrbanWorld 可以进一步将生成的城市环境与真实城市保持一致。如图提供一个可视化示例，展示了所创建的城市环境演变。可以看出，UrbanWorld 采用迭代细化的方式工作，以创建高保真城市环境，其中低质量纹理将通过强大的城市 MLLM 自动识别和细化。

请添加图片描述

如图展示 UrbanWorld 的一些生成结果，包括各种有代表性的城市场景，包括教育场所、商业街区和住宅区。为了直观的比较，还提供 Infinicity（Lin，2023）、CityGen（Deng，2023）和 CityDreamer（Xie，2024）的一些生成样本。Infinicity和CityGen的结果取自原始论文，因为代码不是开源的。可以看出，Infinicity的场景缺乏清晰的纹理和维护良好的建筑结构。CityGen的场景风格单一，没有明确的城市功能特征。同样，CityDreamer环境中城市元素（尤其是建筑物）的视觉外观缺乏多样性，难以区分。此外，CityDreamer中的建筑物边界也存在明显的几何扭曲。这些问题将对主体与城市环境之间的真实互动构成巨大挑战。例如，实体智体难以训练进行城市导航，因为周围元素过于相似，难以识别。相比之下，UrbanWorld 所创建的城市元素具有鲜明的功能特征，得益于文本和参考图像提示的可控性，整体场景更加真实、视觉上更加和谐，体现了 MLLM 智能场景规划设计的有效性。

请添加图片描述