StyleGAN理解和隐变量latent space

文章解释了生成对抗网络(GAN)中的隐空间概念,它不是数据的解压,而是通过训练学习复原原始数据。重点介绍了StyleGAN的Stylemixing技术,通过混合不同latentcodes控制图像风格,展示了不同分辨率下的style对图像特征的影响。
摘要由CSDN通过智能技术生成

生成对抗网络(GAN)中提到的隐空间(latent space)是什么意思? - 知乎

其实,人工智能在这里进行的压根也不是解压,而是一种通过不断地训练学习,学会根据潜空间中被压缩的数据来尽量复原再现被压缩前的原始状态,只能说是尽量逼近而不是100%复原

个人认为 Style mixing 是 StyleGAN 的一大亮点,先来看下什么是 Style mixing,下图中 第一行是 source B, 第一列是source A,source A 和 source B的每张图片由各自相应的latent code 生成,剩余的图片是对 source A 和 souce B 风格的组合。 Style mixing 的本意是去找到控制不同style的latent code的区域位置,具体做法是将两个不同的latent code z1和 z2 输入到 mappint network 中,分别得到 w1 和 w2 ,分别代表两种不同的 style,然后在 synthesis network 中随机选一个中间的交叉点,交叉点之前的部分使用 w1 ,交叉点之后的部分使用 w2 ,生成的图像应该同时具有 source A 和 source B 的特征,称为 style mixing。

根据交叉点选取位置的不同,style组合的结果也不同。下图中分为三个部分,第一部分是 Coarse styles from source B,分辨率(4x4 - 8x8)的网络部分使用B的style,其余使用A的style, 可以看到图像的身份特征随souce B,但是肤色等细节随source A;第二部分是 Middle styles from source B,分辨率(16x16 - 32x32)的网络部分使用B的style,这个时候生成图像不再具有B的身份特性,发型、姿态等都发生改变,但是肤色依然随A;第三部分 Fine from B,分辨率(64x64 - 1024x1024)的网络部分使用B的style,此时身份特征随A,肤色随B。由此可以大致推断,低分辨率的style 控制姿态、脸型、配件 比如眼镜、发型等style,高分辨率的style控制肤色、头发颜色、背景色等style。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值