PixelRNN--学习笔记

最新推荐文章于 2024-04-17 09:55:10 发布

Wsyoneself

最新推荐文章于 2024-04-17 09:55:10 发布

阅读量425

点赞数 1

分类专栏： cv 文章标签： gru 深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_45647721/article/details/127276014

版权

cv 专栏收录该内容

34 篇文章 4 订阅

订阅专栏

背景：
1. 生成图像建模是无监督学习中的核心问题。生成建模的一大优势是可以从中学习无穷无尽的图像数据。
2. 生成模型：
  1. 大多数工作关注随机隐变量模型，如VAE旨在提取有意义的表示，但往往会出现一个难以推断的推理步骤，这会阻碍他们的表现。一种有效的方法是一种有效的方法是可跟踪地模拟图像中的像素的联合分布，把它看作是条件分布的乘积。
  2. 因式分解(factorization)将联合建模问题转化为序列问题，在这个问题中，给定所有先前生成的像素，学习预测下一个像素。但要对像素之间的高度非线性和长程相关性进行建模，并且复杂的条件分布导致必须建立高度表现力的序列模型。
RNN提供一系列条件分布的紧凑的又共享的参数化表示。RNNs已被证明擅长硬序列问题(hard sequence problems)，从手写生成，字符预测和机器翻译。二维RNN已经在建模灰度图像和纹理上产生了非常有前途的结果。
PixelRNNs：
1. 由多达 12 个快速的二维LSTM层组成。这些层使用LSTM单元在他们的状态上，并采用卷积，沿着数据的空间维度之一，来计算一次所有的状态。
2. 两种类型的图层：
  1. Row LSTM层，该层沿每一行应用卷积。
  2. 对角线BiLSTM(Diagonal BiLSTM)层，其中卷积是沿图像的对角线以新颖的方式应用。
  3. 该网络还把残余连接用在LSTM层周围，有助于多达12层的PixelRNN的训练。
3. 一种深度神经网络，该网络沿着两个空间维度依次预测图像中的像素。该方法建模原始像素值的离散概率，并编码图像中的完整依赖集合。架构创新包括快速二维递归层和在深层递归网络中有效使用残余连接
4. 训练多达十二层的PixelRNN。作为增加收敛速度和更直接地通过网络传播信号的手段，将残余连接从一个 LSTM 层到下一层上。
5. 多尺度的 PixelRNN 由一个非条件的 PixelRNN 和一个或多个条件的 PixelRNN 组成。
pixelcnn：
1. 卷积神经网络(CNN)，通过使用蒙版卷积(Masked Convolutions)，也可以作为有着固定依赖范围的序列模型。
2. PixelCNN架构是一个由15个层组成的全卷积网络，保留其输入在各层的空间分辨率，并在每个位置输出条件分布。
3. 估计自然图像的分布，可以用来跟踪计算图像的似然，并产生新的。网络一次扫描图像一行，每一行中一次扫描一个像素。对于每个像素，它预测在给定扫描上下文的可能像素值的条件分布:将图像像素的联合分布分解为条件分布的乘积。预测中使用的参数在图像中的所有像素位置共享。
4. 注意，在训练和评估期间，在像素值上的分布并行计算，而图像的生成是连续的。
5. 卷积中的权重共享可确保特征的平移不变性
6. 网络中每个层的每个输入位置的 h 特征分为三个部分，每个部分对应于 RGB 通道之一。
  1. 预测当前像素 xi 的 R 通道时，只使用生成的 xi 的左侧和上面的像素作为上下文。
  2. 在预测 G 通道时，除了先前生成的像素外，R 通道的值也可以用作上下文。
  3. 对于 B 通道，可以使用 R 通道和 G 通道的值。
7. 注意，与 PixelRNN 相比，PixelCNN 的并行功能的优势仅在训练或评估测试图像时可用
相比连续分布的设定，离散分布是容易学习，更容易产生更好的性能。
无条件网络首先以标准的方式生成一个较小的 sxs 图像，该图像是从原始图像中采样的。然后，条件网络将 sxs 图像作为附加输入，生成更大的 nxn 图像。条件网络类似于标准的 PixelRNN，但每个层都带有小 sxs 图像的上采样版本。
paper中的结果：对角 BiLSTM 有一个全局视图，行 LSTM 有一个部分遮挡的视图，Pixel CNN 在上下文中看到最少的像素。这表明有效地捕捉大的感受野是重要的。
在条件分布中使用 softmax 层将像素值视为离散随机变量。
使用掩膜卷积允许 PixelRNNs 模拟颜色通道之间的完全依赖关系。