51-39 华为PixArt-Σ,高质量4K图片生成模型

PixArt-Σ是华为等机构开发的4K文本到图像生成模型,通过弱到强训练策略显著提升了图像质量和文本对齐。模型采用高效数据集和token压缩技术,提高了生成4K图像的能力,适用于电影、游戏等领域的高质量内容创作。
摘要由CSDN通过智能技术生成

PIXART-Σ是由华为诺亚方舟实验室、大连理工和香港大学的研究团队共同开发的扩散变换模型DiT,专门用于4K分辨率的文本到图像生成。模型于24年3月发布,在基础模型PixArt-a上进行了显著改进,提供了更高保真图像和更好的文本提示对齐。PixArt-Σ生成4K图像的能力有效地支持了电影和游戏等行业高质量视觉内容的产生。

总体说来,PixArt-Σ相对基础模型PixArt-α的主要改进如下:

  • 具有高美感特性和艺术气质的数据集
    • 更高效的自动化标注工具,更好的文本-图像对齐。采用性能更好的Share-Captioner作为标注工具,而非PixArt-α中幻觉问题严重的SAM-LLaVA。同时把文本编码器(即 Flan-T5 )的token长度扩展到大约 300 个单词。为图像提供了更密集、更精确的描述。
    • 更具美感和更高分辨率的训练数据集。构建了一个4K分辨率的图片数据集,并通过一个美学评分模型AES对数据进行进一步筛选。最终形成分辨率为1K的 33M 高分辨率图像
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深圳季连AIgraphX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值