改进 GAN 以进行文本到图像的生成

改进 GAN 以进行文本到图像的生成

Scaling up GANs for Text-to-Image Synthesis
https://arxiv.org/abs/2303.05511

目标:GigaGAN拓展GAN以应用在大型数据集上。简单缩放StyleGAN2主干会导致训练不稳定。

优势:(1)运行速度快;(2)具有可控的潜在向量空间,适用于经过充分研究的可控图像合成应用,例如潜在插值、风格混合和向量算术运算。

首先拓展生成器容量:保留一组过滤器并采用特定于样本的线性组合。例如,将自注意力(仅图像)和交叉注意力(图像-文本)与卷积层交织在一起可以提高性能。

引入多尺度训练:找到一种新的方案来改进图像文本对齐和生成输出的低频细节。多尺度训练允许基于 GAN 的生成器更有效地使用低分辨率块中的参数,从而实现更好的图像文本对齐和图像质量。

1 Method

在这里插入图片描述
GigaGAN 大规模文本到图像生成器。

首先,使用预训练的 CLIP 模型和learned编码器 T 提取文本嵌入。使用交叉注意力将局部文本描述馈送到生成器。全局文本描述符连同潜在code z 被馈送到风格映射网络 M 以生成风格code w。风格code使用风格自适应内核选择来调制主生成器,如右侧所示。生成器通过将中间特征转换为 RGB 图像来输出图像金字塔。

为了实现更高的容量,在每个尺度上使用多个注意力和卷积层。还使用了一个单独的上采样器模型,此图中未显示。

2 总结

现有模型生成效果低于现有基于diffusion的模型Imagen、DALL-E 2和 Parti,但运行速度较快。

论文代码未开源,真实生成效果和速度未知,如有后续代码开源,可进一步跟进,从GAN角度优化出发,保证生成速度的同时,重点优化生成质量。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值