StyleGAN系列学习笔记

最新推荐文章于 2025-04-23 23:58:57 发布

平山村小明

最新推荐文章于 2025-04-23 23:58:57 发布

阅读量1.1k

点赞数

分类专栏： GAN 文章标签：计算机视觉深度学习 GAN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46187561/article/details/124506268

版权

GAN 专栏收录该内容

2 篇文章

订阅专栏

StyleGAN系列学习笔记：
- 先上效果图：
  -
- StyleGAN相比于pix2pix和cycleGAN的优点主要在于，可以对style的解耦和实现对style的可控性增强。我们重点关注StyleGAN如何实现对特征的解耦和融合。
- StyleGAN的前身是proGAN,主要思想是从低分辨率的图像训练GAN，然后逐代增大生成图像的分辨率。（每次训练G和D只有一个网络）
- 先来大致看一下StyleGAN的pipeline：其主要分为Mapping network和Synthesis network
- Mapping network:
  - 这一部分实现了重要的特征解耦工作，也是后面要重点关注的，从而使得特征的独立控制成为可能，尽量少的影响其他的部分。
  - 将latent code z转化为w，经过仿射变换进入Synthesis network控制不同的style。
  - mapping network如何做到特征解耦的（解耦的关键）：因为在实际数据集中，例如短头发更可能是男性，所以这就存在了特征耦合，直接输入z来控制一个特征，另一个特征可能也会变化，所以mapping network使用8个全连接层，将z编码为中间向量w，w的不同元素控制不同的特征。（这里是如何通过几个全连接层解耦的还是没弄明白，有懂哥指教一下）
- synthesis network
  - B作为噪声输入来影响毛发，皱纹等微小细节。
  - AdaIN自适应实例归一化模块（融合style的关键）：
    - 在AdalN相关的研究中表明：特征的均值和方差就代表着图像的风格！
    - 所以在这一层中，特征图减去自己的均值除以方差，去掉自己的风格。再乘上新风格的方差加上均值，以实现转换的目的。StyleGAN的风格不是由图像的得到的，而是w生成的。
  - 最后一层用一个separate1*1convolution来生成RGB图像
  - 因为生成器的输出由W,Noise和AdalN控制，所以删除了传统的输入，以常值替代。好处分别是减少生成不正常图片的概论和有助于减少特征耦合。
- Style mixing:
  - StyleGAN在使用这种方法实现的style mixing也是一大亮点，其背后的原理是层和分辨率越低，影响的特征越粗糙，如低分辨率影响姿势、发型、形状等，中分辨率影响眼睛的闭合状态、面部特征，高分辨率影响微观特征和颜色等。
  - style mixing的实现是取sourceA和sourceB的latent code输入到mapping network得到w1和w2，各种影响不同的风格，在生成的过程中，前半部分使用w1，后半部分使用w2，从而实现了style mixing。
- 最后提出了两个量化解耦的方法
  - Perceptual path length：判断latend code域生成器是否选择了最近的路线。
  - Linear separability：通过测量在潜在空间的点可由线性超平面分为两个不同集合的程度来进行量化，以便每个集合都对应于图像的某种二分类属性。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。