PIXART-Σ是由华为诺亚方舟实验室、大连理工和香港大学的研究团队共同开发的扩散变换模型DiT,专门用于4K分辨率的文本到图像生成。模型于24年3月发布,在基础模型PixArt-a上进行了显著改进,提供了更高保真图像和更好的文本提示对齐。PixArt-Σ生成4K图像的能力有效地支持了电影和游戏等行业高质量视觉内容的产生。
总体说来,PixArt-Σ相对基础模型PixArt-α的主要改进如下:
- 具有高美感特性和艺术气质的数据集
- 更高效的自动化标注工具,更好的文本-图像对齐。采用性能更好的Share-Captioner作为标注工具,而非PixArt-α中幻觉问题严重的SAM-LLaVA。同时把文本编码器(即 Flan-T5 )的token长度扩展到大约 300 个单词。为图像提供了更密集、更精确的描述。
- 更具美感和更高分辨率的训练数据集。构建了一个4K分辨率的图片数据集,并通过一个美学评分模型AES对数据进行进一步筛选。最终形成分辨率为1K的 33M 高分辨率图像