论文链接:Self-Attention Generative Adversarial Networks
这篇论文是将自注意力机制引入生成对抗网络用于图像生成任务。
摘要:
这篇论文,作者提出了自注意力生成对抗网络(SAGAN)来建模像素间的远距离关系,用于图像生成任务。传统的生成对抗网络(GAN)生成高分辨率图像的细节仅仅利用了低分辨率特征图的局部空间信息。在SAGAN,会利用特征图上所有的位置信息,而不仅仅是局部位置信息。此外,判别器还可以检查图像中较远部分的细节特征是否一致。最近有研究表明生成器的状态会影响GAN的性能,根据这个问题,作者对生成器使用谱范数归一化能有效提高训练的稳定性。作者提出的SAGAN在ImageNet数据集上实现了最好的结果,将最高的Inception分数从36.8提高到52.52,并且将Fréchet Inception距离从27.62降低到18.65。引入注意力的卷积层可视化显示,生成器利用了与目标形状对应的邻域,而不是固定形状的局部区域。
思路:
图像合成是计算机视觉中的一个重要问题。基于深度卷积神经网络的生成对抗网络在这方面已经取得了显著的进步。然而,通过仔细检查这些模型生成的样本,我们可以发现,卷积神经网络在对多类别数据集上进行训练时,对某些图像类别的建模要比其他类别困难得多(比如ImageNet),比如,在ImageNet数据集上训练的GAN模型擅长合成有很少结构约束的目标,比如海洋,天空和风景等类别,这些类别纹理特征比几何特征更明显。但是不能很好地捕捉某些目标固有的几何或结构模式,比如狗,通常能生成逼真的皮毛纹理但是不能生成清晰的狗爪。一个可能的解释是这些模型主要依赖卷积去建模图像不同区域的依赖关系。由于卷积操作只有很小的感受野(因为卷积核大部分是),远距离的依赖关系需要经过几层卷积操作才能获取到(因为有池化层存在,