改进 GAN 以进行文本到图像的生成

最新推荐文章于 2024-03-19 14:33:42 发布

Galaxen

最新推荐文章于 2024-03-19 14:33:42 发布

阅读量340

点赞数

文章标签：生成对抗网络深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44909476/article/details/130953429

版权

GigaGAN通过扩展生成器容量和引入多尺度训练改进了GAN在大型数据集上的文本到图像合成。它结合自注意力和交叉注意力，利用预训练的CLIP模型和学习到的编码器。尽管生成效果可能不及某些扩散模型，但其速度快，且有潜力通过优化提高质量。

摘要由CSDN通过智能技术生成

改进 GAN 以进行文本到图像的生成

Scaling up GANs for Text-to-Image Synthesis
https://arxiv.org/abs/2303.05511

目标：GigaGAN拓展GAN以应用在大型数据集上。简单缩放StyleGAN2主干会导致训练不稳定。

优势：(1)运行速度快;(2)具有可控的潜在向量空间，适用于经过充分研究的可控图像合成应用，例如潜在插值、风格混合和向量算术运算。

首先拓展生成器容量：保留一组过滤器并采用特定于样本的线性组合。例如，将自注意力（仅图像）和交叉注意力（图像-文本）与卷积层交织在一起可以提高性能。

引入多尺度训练：找到一种新的方案来改进图像文本对齐和生成输出的低频细节。多尺度训练允许基于 GAN 的生成器更有效地使用低分辨率块中的参数，从而实现更好的图像文本对齐和图像质量。

1 Method

在这里插入图片描述
GigaGAN 大规模文本到图像生成器。

首先，使用预训练的 CLIP 模型和learned编码器 T 提取文本嵌入。使用交叉注意力将局部文本描述馈送到生成器。全局文本描述符连同潜在code z 被馈送到风格映射网络 M 以生成风格code w。风格code使用风格自适应内核选择来调制主生成器，如右侧所示。生成器通过将中间特征转换为 RGB 图像来输出图像金字塔。

为了实现更高的容量，在每个尺度上使用多个注意力和卷积层。还使用了一个单独的上采样器模型，此图中未显示。

2 总结

现有模型生成效果低于现有基于diffusion的模型Imagen、DALL-E 2和 Parti，但运行速度较快。

论文代码未开源，真实生成效果和速度未知，如有后续代码开源，可进一步跟进，从GAN角度优化出发，保证生成速度的同时，重点优化生成质量。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
改进 GAN 以进行文本到图像的生成

改进 GAN 以进行文本到图像的生成
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。