【GAN】SAGAN ICML‘19

SAGAN通过引入自注意力机制解决了深度卷积网络在生成长范围相关图像区域时的局限性,如在生成人脸图片时确保左右眼的对称性。在DCGAN基础上,SAGAN利用1×1卷积和self-attention层捕获全局信息,同时结合Spectral Normalization和Two Time-Scale Update Rule进行稳定训练。实验结果显示,SAGAN有效地处理了长距离依赖问题,提高了生成图像的质量。
摘要由CSDN通过智能技术生成

《Self-Attention Generative Adversarial Networks》ICML’19,Goodfellow署名。

深度卷积网络能够提升 GANs 生成高分辨率图片的细节。这篇文章为了解决在生成大范围相关(Long-range dependency)的图片区域时,CNN局部感受野的影响,因此在DCGAN的基础上引入了Self-attention。

解决什么问题

在生成例如人脸图片时,细节是非常重要的,比如左右眼,只要左右眼有一点点不对称,生成的人脸就会特别不真实,因此左右眼的区域就是“大范围相关”(Long-range dependency)的。存在Long-range dependency的场景有很多,但是由于CNN局部感受野的限制(卷积核很难覆盖很大的区域),很难捕捉到全局的信息,比如在对右眼区域做卷积时看不到左眼对右眼的影响,这样生成的人脸图片的左右眼很可能没有什么关系。

想要看到全局的信息,有几种做法:1、增大卷积核尺寸、扩大感受野——增大参数量和计算量,而且除非卷积核和图片一样大,否则还是存在视野盲区;2、加深卷积层——增大计算量;3、采用全连接层来获取全局信息——因小失大。

因此把self- attention引入是一个简约且高效的方法。

怎么做——SAGAN模型

在这里插入图片描述

我们先按文章中的说法介绍:

经过卷积操作得到的feature map x x x x ∈ R C × N \boldsymbol{x} \in \mathbb{R}^{C \times N} xRC×N f ( x ) , g ( x ) , h ( x ) f(x), g(x),h(x) f(x),g(x),h(x)都是 1 × 1 1 \times1 1×1的卷积,将 f ( x ) f(x) f(x)输出的转置和 g ( x ) g(x) g(x)的输出相乘,再经过softmax归一化得到一个attention map;将得到的attention map和 h ( x ) h(x) h(x)逐点相乘,得到self-attention的特征图。

具体实现: f ( x ) = W f x , g ( x ) = W g x , h ( x ) = W h x \boldsymbol{f}(\boldsymbol{x})=\boldsymbol{W}_{\boldsymbol{f}} \boldsymbol{x}, \boldsymbol{g}(\boldsymbol{x})= \boldsymbol{W}_{\boldsymbol{g}} \boldsymbol{x}, \boldsymbol{h}(\boldsymbol{x})=\boldsymbol{W}_{\boldsymbol{h}} \boldsymbol{x} f(x)=Wfx,g(x)=Wgx,h(x)=Whx,$W_{g} \in R^{\bar{C} \times C}, W f ∈ R c ˉ × C , W_{f} \in R^{\bar{c} \times C}, WfRcˉ×C,W_{h} \in R^{C \times C}$是学习的权重矩阵,通过 1

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值