StyleGAN理解和隐变量latent space

努力搬砖ll

于 2024-03-26 19:38:26 发布

阅读量395

点赞数 5

分类专栏：深度学习文章标签： gan 深度学习

本文链接：https://blog.csdn.net/weixin_49562509/article/details/137050523

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章解释了生成对抗网络(GAN)中的隐空间概念，它不是数据的解压，而是通过训练学习复原原始数据。重点介绍了StyleGAN的Stylemixing技术，通过混合不同latentcodes控制图像风格，展示了不同分辨率下的style对图像特征的影响。

摘要由CSDN通过智能技术生成

生成对抗网络（GAN）中提到的隐空间（latent space）是什么意思？ - 知乎

其实，人工智能在这里进行的压根也不是解压，而是一种通过不断地训练学习，学会根据潜空间中被压缩的数据来尽量复原再现被压缩前的原始状态，只能说是尽量逼近而不是100%复原

个人认为 Style mixing 是 StyleGAN 的一大亮点，先来看下什么是 Style mixing，下图中第一行是 source B，第一列是source A，source A 和 source B的每张图片由各自相应的latent code 生成，剩余的图片是对 source A 和 souce B 风格的组合。 Style mixing 的本意是去找到控制不同style的latent code的区域位置，具体做法是将两个不同的latent code z1和 z2 输入到 mappint network 中，分别得到 w1 和 w2 ，分别代表两种不同的 style，然后在 synthesis network 中随机选一个中间的交叉点，交叉点之前的部分使用 w1 ，交叉点之后的部分使用 w2 ，生成的图像应该同时具有 source A 和 source B 的特征，称为 style mixing。

根据交叉点选取位置的不同，style组合的结果也不同。下图中分为三个部分，第一部分是 Coarse styles from source B，分辨率(4x4 - 8x8)的网络部分使用B的style，其余使用A的style, 可以看到图像的身份特征随souce B，但是肤色等细节随source A；第二部分是 Middle styles from source B，分辨率(16x16 - 32x32)的网络部分使用B的style，这个时候生成图像不再具有B的身份特性，发型、姿态等都发生改变，但是肤色依然随A；第三部分 Fine from B，分辨率(64x64 - 1024x1024)的网络部分使用B的style，此时身份特征随A，肤色随B。由此可以大致推断，低分辨率的style 控制姿态、脸型、配件比如眼镜、发型等style，高分辨率的style控制肤色、头发颜色、背景色等style。