hunyuan3D 2.0 扩散3D模型技术要点

Open-source-AI

已于 2025-03-23 13:29:14 修改

阅读量558

点赞数 18

分类专栏：前沿文章标签： 3d 人工智能多模态计算机视觉

于 2025-03-22 23:19:45 首次发布

本文链接：https://blog.csdn.net/weixin_52582710/article/details/146448440

版权

前沿专栏收录该内容

216 篇文章

订阅专栏

Hunyuan3D 2.0论文的技术要点：

开源模型：tencent/Hunyuan3D-2mv等

概述

模型名称：Hunyuan3D 2.0
主要功能：生成高分辨率纹理3D资产
架构：包含两个基础组件，分别是大规模形状生成模型Hunyuan3D-DiT和大规模纹理合成模型Hunyuan3D-Paint，以及一个用户友好的生产平台Hunyuan3D-Studio

技术要点

Hunyuan3D-DiT（形状生成模型）

    基础架构：基于可扩展的流式扩散Transformer，用于根据给定的条件图像创建与之对齐的几何形状
    训练方法：
        首先训练一个自编码器Hunyuan3D-ShapeVAE，使用网格表面重要性采样和变分标记长度等先进技术来捕捉网格上的细粒度细节
        然后在ShapeVAE的潜在空间上构建一个双重单流Transformer，并采用流匹配目标进行训练
    创新点：
        引入重要性采样方法，对网格边缘和角落等复杂区域进行更多采样，以更好地捕捉和表示3D形状的复杂细节
        采用变分自编码器结构，结合3D坐标和点云的法向量作为编码器输入，预测3D形状的有符号距离函数（SDF），再通过行进立方体算法解码为三角网格

Hunyuan3D-Paint（纹理合成模型）

    基础架构：由一个新颖的网格条件多视图生成管道和多个用于预处理和烘焙多视图图像到高分辨率纹理图的复杂## 技术组成
    训练方法：
        利用强大的几何先验和输入图像，生成自一致的多视图输出，用于烘焙高分辨率纹理图
        采用图像消光模块将输入图像转换为无光照状态，以生成光照不变的纹理图
    创新点：
        设计了双流图像条件参考网络，将原始VAE特征直接输入参考分支，以保持图像细节
        引入多任务注意力机制，包括参考注意力模块和多视图注意力模块，以实现图像对齐和多视图一致性
        采用几何和视图条件策略，将几何条件与噪声直接拼接，并结合可学习的相机嵌入，以提高生成纹理的质量和一致性

Hunyuan3D-Studio（生产平台）

    功能特点：
        Sketch-to-3D：将2D草图转换为具有丰富细节的图像，作为基础3D生成模型的输入，从而生成高分辨率和高保真的纹理3D资产
        低多边形风格化：通过几何编辑和纹理保持两步操作，将Hunyuan3D 2.0生成的密集网格高效转换为低多边形网格
        3D角色动画：输入生成的角色，提取网格顶点和边的特征，利用图神经网络检测骨骼关键点并分配蒙皮权重，最后基于预测的骨骼蒙皮和运动模板，利用运动重定向驱动角色

性能评估

评估维度：包括生成的纹理网格、裸网格和纹理图三个维度
评估方法：与多个领先的3D生成模型进行深入比较，包括开源模型和闭源模型，以及单独的形状和纹理生成模型
评估结果：Hunyuan3D 2.0在几何细节、条件对齐、纹理质量等方面均优于其他模型，用户研究也表明其在条件图像与生成网格的对齐、细粒度细节生成和人类偏好评分方面具有优势