腾讯混元Dit-业内首个支持中文的AI绘画大模型，他来了！附本地一键包下载

本文链接：https://blog.csdn.net/yihuaixu/article/details/139123145

5月14日，腾讯旗下混元文生图大模型（下称：混元DiT，Scalable Diffusion Models with Transformers）宣布全面升级并对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。腾讯混元文生图负责人卢清林表示，混元DiT开源的价值有两方面，一方面这是业内首个中文原生DiT架构，弥补了开源社区的空白；另一方面混元DiT为全面开放，与现网版本完全一致。

据卢清林介绍，之所以做这次开源尝试，是由于目前开源社区中技术快速迭代，缺乏先进、成熟的DiT架构可以开源利用。此外，现有模型对中文理解较差，中文应用场景受限。此次开源的混元DiT采用了与Sora同样的背后关键技术——DiT架构，还支持256字符中文理解，全链路自研，也是一款原生中文模型。

妈妈再也不用担心我不会写提示词了

项目地址：https://github.com/Tencent/HunyuanDiT

在线体验：https://huggingface.co/spaces/Tencent-Hunyuan/HunyuanDiT

本地一键包：腾讯混元Dit-业内首个支持中文的AI绘画大模型，他来了！附本地一键包下载

下面看下官方生成案例：

无论是对中文的理解，还是长文本解析能力，包括多轮会话问生图，腾讯混元DiT都有着出色的表现。

据了解，这是业内首个中文原生的DiT架构文生图开源模型，支持中英文双语输入及理解，参数量15亿。升级后的混元文生图大模型采用了与 sora 一致的DiT架构，不仅可支持文生图，也可作为视频等多模态视觉生成的基础。

升级后的混元文生图模型采用了基于Transformer的扩散模型架构（简称DiT），具备更强的可扩展性，在参数量越多的情况下，性能越强，有利于提升视觉模型生成效果及效率。这也是此前爆红的文生视频产品Sora 背后的关键技术。

腾讯文生图负责人芦清林表示：“腾讯混元文生图的研发思路就是实用，坚持从实践中来，到实践中去。此次把最新一代模型完整开源出来，是希望与行业共享腾讯在文生图领域的实践经验和研究成果，共建中文文生图开源生态，加速大模型行业发展。”

目前，腾讯混元文生图模型参数量达 15 亿。评测数据显示，最新的腾讯混元文生图模型效果相比前代提升超过 20%，远超开源的Stable Diffusion模型，在目前已开源的文生图模型中，综合性能最佳，达到国际领先水平。

优点都说完了，说下缺点。第一，对硬件资源要求高，官方介绍，最少需要11G显存的显卡才能运行，如果要丝滑运行，可能需要12G+显存了，我用4070显卡，平均生成一张图要4分钟左右，速度还是有待提升的。

下面看下我生成的几张历史宫殿图

秦阿房宫