OpenAI的文章介绍Generative models:搬运部分重点。
What I cannot create, I do not understand.
我们期望计算机能理解和分析我们这个世界,Generative-models生成模型是实现这一目标的最有前途的方法之一。
诀窍在于,我们用作生成模型的神经网络的许多参数远小于我们训练它们的数据量,因此模型被迫发现并有效地内化数据的本质以生成数据。
生成模式的三种方法:流行示例:
- 生成式对抗网络(GAN):将训练过程视为两个独立网络之间的游戏:生成器网络和判别器网络。每次判别器发现两个分布(真实数据和生成数据)之间的差异时,生成器都会稍微调整其参数以使其消失;直到最后生成器准确地再现真实的数据分布;而判别器只能随机猜测,无法找到两者的区别。
- 变分自编码器(VAE):最大化数据的对数似然下限。
- 自回归模型(PixelRNN):RNN在图像上水平和垂直运行,网络对每个单独像素在给定先前像素(向左和向右)的条件分布下进行建模。(RNN可以处理Variable length的input)
优劣:
- 变分自动编码器允许我们在具有潜在变量的复杂概率图形模型中执行学习和有效的贝叶斯推理。然而,他们生成的样本往往有点模糊。
- GAN目前生成最清晰的图像,但由于不稳定的训练动态,它们更难以优化。
- PixelRNNs 有一个非常简单和稳定的训练过程(softmax loss),并且目前给出了最好的对数似然(即生成数据的合理性)。然而,它们在采样过程中效率相对较低,并且不容易提供简单的低维图像的代码。
文中提到他们的一项贡献,我觉得很有价值:
使用 GAN进行半监督学习的方法,该方法涉及鉴别器产生一个额外的输出,指示输入的标签。这种方法使我们能够在MNIST、SVHN和 CIFAR-10 的设置中获得最先进的结果,并且标记示例很少。例如,在 MNIST 上,我们实现了 99.14% 的准确率,每个类只有 10 个标记示例,使用完全连接的神经网络 - 这个结果非常接近使用所有 60,000 个标记示例的完全监督方法的最佳已知结果。这是非常有前途的,因为在实践中获得标记的示例可能非常昂贵。
我们可以期望最终生成描述完全合理的图像或视频的样本。场景:
- 按需生成的艺术
- Photoshop++
- 图像去噪
- 修复
- 超分辨率
- 结构化预测
- 强化学习探索
- 标记数据昂贵的情况下预训练。
这项工作更深层次的承诺是,在训练生成模型的过程中,我们将赋予计算机对世界及其构成的理解。
补充VAE的部分原理