VQGAN: Taming Transformers for High-Resolution Image Synthesis

最新推荐文章于 2025-02-05 22:17:32 发布

武乐乐~

最新推荐文章于 2025-02-05 22:17:32 发布

阅读量821

点赞数 26

文章标签：计算机视觉

本文链接：https://blog.csdn.net/wulele2/article/details/140083059

版权

论文名称：Taming Transformers for High-Resolution Image Synthesis

发表时间：CVPR2021
作者及组织： Patrick Esser*, Robin Rombach*, Bjorn Ommer, 来自Heidelberg Collaboratory for Image Processing, IWR, Heidelberg University, Germany。

前言

本文类似VQVAE，区别在于引入了GAN的思想来强制codebook学到更逼真的图像成分表示，另外，自回归模型替换成了长序建模更强的Transformer来替代PixelCNN。（在codebook上进行自回归是因为Transformer计算代价大）。

1、方法

在这里插入图片描述

1.1.codebook学习

这块类似VQVAE，损失函数类似：
$\begin{equation} L_{VQ}(E,G,Z) = ||x- \hat x||^2+||sg[E(x)] - z_q||_2^2+\beta||sg[z_q]-E(x)||_2^2 \tag{1} \end{equation}$
其中 $\hat x$ 表示Decoder的生成图， $s g [.]$ 表示梯度停止，即一个重构损失和一个codebook损失。

1.2.+GAN

由于CNN会压缩图像，可能导致codebook在像素级别上质量差，于是加了一个判别器 $D$ ，来判断每块特征图 $re a l / f ak e$ 。

$\begin{equation} L_{GAN}({E,G,Z}, D) = [logD(x) + log(1-D(\hat x))] \tag {2} \end{equation}$

其中 $x$ 是原始图像， $\hat x$ 是Decoder生成图。另外，VQGAN使用了 $perceptual\ loss$ 来替换了公式1中的重构损失。最终codebook最终损失为公式1和2的和。

1.3.自回归

在codebook训练完成后，将其置为推理阶段，然后推理图像并根据codebook得到gt索引，并用Transformer来自回归预测下一个索引。自回归损失用一个交叉熵即可：
$\begin{equation} L_{transformer} = E_{x - p(x)}[-logp(s)] \\ p(s) = \prod_{i=1}^{n}p(s_i|s<i) \end{equation}$