WaveGAN: Frequency-aware GAN forHigh-Fidelity Few-shot Image Generation,WaveGAN:用于高保真少镜头图像生成的频率感知GAN

WaveGAN是一种新的频率感知模型,针对少镜头图像生成问题。它通过小波变换分解编码特征为低频和高频分量,使用低频跳跃连接保持结构,高频跳跃连接提供细节信息。通过高频L1损失防止信息丢失,提高生成图像的细节和质量。在三个数据集上的实验显示了其优越性和先进性。
摘要由CSDN通过智能技术生成

链接:2207.07288.pdf (arxiv.org)​​​​​​

代码:GitHub:  https://github.com/ kobeshegu/ECCV2022_WaveGAN GitHub - kobeshegu/ECCV2022_WaveGAN: The official code of WaveGAN: Frequency-aware GAN for High-Fidelity Few-shot Image Generation (ECCV2022)

摘要:现有的少镜头图像生成方法通常在图像或特征级别上采用基于融合的策略来生成新的图像。然而,以前的方法难以合成具有精细细节的高频信号,从而降低了合成质量。为了解决这个问题,我们提出了WaveGAN,一种用于少镜头图像生成的频率感知模型。具体来说,我们将编码特征分解为多个频率分量,并执行低频跳跃连接以保留轮廓和结构信息。然后,我们通过使用高频跳过连接来缓解生成器合成精细细节的困难,从而为生成器提供信息丰富的频率信息。此外,我们利用生成的和真实图像上的频率L1损失来进一步阻碍频率信息损失。大量实验在三个数据集上证明了我们方法的有效性和先进性。值得注意的是,我们在花朵、动物脸和VGGFace上分别使用了FID 42.17、LPIPS 0.3868、FID 30.35、LPIPS 0.5076和FID 4.96、LPIPS.3822,实现了新的最先进技术

介绍:先前的方法试图1)转换类内信息[1],2)通过将GANs与元学习[4][27]相结合来设计新的优化方案,以及3)融合给定的图像[14][15][12]以解决少镜头图像生成问题。在这些方法中,LoFGAN[12]通过基于特征的语义相似性融合局部表示来实现当前最先进的性能。然而,现有的方法忽略了频率信息在整个生成过程中的巨大影响。F-princil[42]证明了神经网络优先拟合从低到高的频率信号。因此,该模型倾向于生成具有更高优先级和更肤浅复杂性的频率,即,仅生成低频信号。

我们在图1中可视化了真实图像的不同频率分量。低频分量(即LL)包含总体表面、轮廓和结构等一般信息。而丰富的细节和可感知的信息,如树叶、狗的舌头和人类的毛发,都存在于高频成分(即LH、HL、HH)中。通过将所有高频分量(即LH+HL+HH)相加在一起,可以获得丰富的细节。由于高频分量包含细致的信息,因此它们的丢失可能导致生成器合成具有更多混叠伪影的模糊图像。这个问题强调了在生成图像时考虑频率信号的必要性,尤其是高频信号,因为生成器通常会避开它们[18][42]。本文提出了WaveGAN,这是一种从频域角度改善少镜头合成质量的创新有效方法。我们首先执行小波分解,将编码特征从空间域转换到多个频域,包括低频和高频分量。然后,我们通过低频跳过连接将低频分量馈送到编码器的后层,以保持整体轮廓和结构模式。为了减轻发生器产生高频信号的压力,并向解码器提供更多细节,我们将分解后的高频信号直接馈送到解码器。设计了两种策略来聚合高频信号,即WaveGAN-M和WaveGAN-B。两者都是有效的,并且可以向解码器提供高频信息。然后,通过我们的逆频率变换操作,将高频分量精确地重建回原始特征,确保高频信号的损失最小。此外,我们将频率L1损失应用于生成的图像和真实图像,这与空间损失互补,并阻止了频率信息的丢失。我们的主要贡献可以总结如下:–我们提出了WaveGAN,这是第一种利用频率分量来提高合成质量的少数镜头图像生成方法。我们的WaveGAN为发生器添加了低频和高频跳跃连接,缓解了发生器对高频信号进行编码的困难,并提供了更可感知的信息,从而获得了良好的生成质量我们设计了两种技术来聚合高频信息,以将频率信号重构回原始特征,即WaveGANM和WaveGAN-B,这两种技术保留了精细的细节和统计财产。我们还提供了频率L1损耗,以避免丢失频率信息我们在三个数据集上进行了全面的实验。定性和定量结果都证明了我们方法的优越性和有效性。值得注意的是,我们的模型优于最先进的方法,具有显著的FID改进(例如,在动物脸上从102.07提高到30.35)。

 方法:问题定义。给定来自一个新类的K个图像,我们的模型的目标是为给定类合成多样且可信的图像。图像的数量K定义了K镜头图像生成任务。一般来说,这项任务分两个阶段完成,即培训和测试。数据集首先被划分为可见类Cs和不可见类Cu,其中Cs和Cu没有重叠。在训练阶段,从Cs采样的大量K镜头图像生成任务被输入到模型中,期望模型将从Cs学习的生成新图像的知识转移到Cu。在测试阶段,模型从Cu获取图像作为输入,以合成新图像。总体框架。如图6所示,2,我们的模型由WaveEncoder、WaveDecoder和鉴别器组成,WaveEncode和WaveDecider构成了我们的生成器。WaveEncoder提取图像的特征表示,而WaveDecoder将特征表示映射到新图像。我们对编码后的特征进行小波变换,得到多个频率分量。然后,我们在编码器中使用低频跳过连接来保留整体结构和轮廓。我们利用高频跳过连接向解码器提供详细信息。小波逆变换模块将这些高频信号重构为原始特征。高频信号包含丰富的细节和可感知的信息,使生成器能够合成高质量的图像。然后将真实图像和生成的图像馈送到鉴别器中以训练整个模型。接下来,我们将详细介绍我们的WaveEncoder。

我们的WaveEncoder由卷积块和小波变换块组成。卷积运算为解码器提取特征产生新的图像。为了将提取的特征分解为多个频率分量,我们采用了一种简单而有效的小波变换,即Haar小波[5]。Haar小波包含两种运算:小波变换和小波逆变换,以及四个内核,即LLT、LHT、HLT和HHT。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值