腾讯混元Dit-业内首个支持中文的AI绘画大模型,他来了!附本地一键包下载

5月14日,腾讯旗下混元文生图大模型(下称:混元DiT,Scalable Diffusion Models with Transformers)宣布全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。腾讯混元文生图负责人卢清林表示,混元DiT开源的价值有两方面,一方面这是业内首个中文原生DiT架构,弥补了开源社区的空白;另一方面混元DiT为全面开放,与现网版本完全一致。

据卢清林介绍,之所以做这次开源尝试,是由于目前开源社区中技术快速迭代,缺乏先进、成熟的DiT架构可以开源利用。此外,现有模型对中文理解较差,中文应用场景受限。此次开源的混元DiT采用了与Sora同样的背后关键技术——DiT架构,还支持256字符中文理解,全链路自研,也是一款原生中文模型。

妈妈再也不用担心我不会写提示词了

项目地址:https://github.com/Tencent/HunyuanDiT

在线体验:https://huggingface.co/spaces/Tencent-Hunyuan/HunyuanDiT

本地一键包:腾讯混元Dit-业内首个支持中文的AI绘画大模型,他来了!附本地一键包下载

下面看下官方生成案例:

无论是对中文的理解,还是长文本解析能力,包括多轮会话问生图,腾讯混元DiT都有着出色的表现。

据了解,这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。升级后的混元文生图大模型采用了与 sora 一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。

升级后的混元文生图模型采用了基于Transformer的扩散模型架构(简称DiT),具备更强的可扩展性,在参数量越多的情况下,性能越强,有利于提升视觉模型生成效果及效率。这也是此前爆红的文生视频产品Sora 背后的关键技术。

腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,共建中文文生图开源生态,加速大模型行业发展。”

目前,腾讯混元文生图模型参数量达 15 亿。评测数据显示,最新的腾讯混元文生图模型效果相比前代提升超过 20%,远超开源的Stable Diffusion模型,在目前已开源的文生图模型中,综合性能最佳,达到国际领先水平。

优点都说完了,说下缺点。第一,对硬件资源要求高,官方介绍,最少需要11G显存的显卡才能运行,如果要丝滑运行,可能需要12G+显存了,我用4070显卡,平均生成一张图要4分钟左右,速度还是有待提升的。

下面看下我生成的几张历史宫殿图

秦阿房宫

话说,建筑风格还是有点像。估计也只有腾讯的混元DiT能理解这些中国元素了。

秦咸阳宫

汉未央宫

唐大明宫

最后测试一首我最喜欢的唐诗“曾经沧海难为水,除却巫山不是云”,测试下混元DiT对咱们唐诗的理解能力如何。

这个效果,已经算是理解到了7成的效果,真的很震撼。

其他更多的效果,大家可以在线或者下载一键包自行体验

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值