改进 GAN 以进行文本到图像的生成
Scaling up GANs for Text-to-Image Synthesis
https://arxiv.org/abs/2303.05511
目标:GigaGAN拓展GAN以应用在大型数据集上。简单缩放StyleGAN2主干会导致训练不稳定。
优势:(1)运行速度快;(2)具有可控的潜在向量空间,适用于经过充分研究的可控图像合成应用,例如潜在插值、风格混合和向量算术运算。
首先拓展生成器容量:保留一组过滤器并采用特定于样本的线性组合。例如,将自注意力(仅图像)和交叉注意力(图像-文本)与卷积层交织在一起可以提高性能。
引入多尺度训练:找到一种新的方案来改进图像文本对齐和生成输出的低频细节。多尺度训练允许基于 GAN 的生成器更有效地使用低分辨率块中的参数,从而实现更好的图像文本对齐和图像质量。
1 Method
GigaGAN 大规模文本到图像生成器。
首先,使用预训练的 CLIP 模型和learned编码器 T 提取文本嵌入。使用交叉注意力将局部文本描述馈送到生成器。全局文本描述符连同潜在code z 被馈送到风格映射网络 M 以生成风格code w。风格code使用风格自适应内核选择来调制主生成器,如右侧所示。生成器通过将中间特征转换为 RGB 图像来输出图像金字塔。
为了实现更高的容量,在每个尺度上使用多个注意力和卷积层。还使用了一个单独的上采样器模型,此图中未显示。
2 总结
现有模型生成效果低于现有基于diffusion的模型Imagen、DALL-E 2和 Parti,但运行速度较快。
论文代码未开源,真实生成效果和速度未知,如有后续代码开源,可进一步跟进,从GAN角度优化出发,保证生成速度的同时,重点优化生成质量。