作者
两个一作都是来自MIT,二作是何凯明。
文章结构
引言部分:通过监督学习与自监督学习的关系引出自条件生成与条件生成,并介绍了自条件生成模型的整体架构以及模型效果。
相关工作:自监督学习、图像生成
实验方法:模型三个阶段的具体实现,最后还加上了一个classifier-free Guidance的实验
实验结果:介绍了模型选择和参数设置,无条件图像生成的结果、classifier-free Guidance的实验结果、一些消融实验、算力消耗、定性结果。
讨论:跨越了条件生成与无条件生成的鸿沟,使得高质量的图像生成可以不依赖于外界标注。
研究背景
这篇文章做的是图像生成的任务,提出了一个以图片自身的特征表示作为条件的自条件生成模型,可以看作是一种无条件生成,因为它不需要借助外界的标注,但是它又有别于一般的条件生成,作者给它取名为自条件生成。
整体思路
文中将模型分为三部分:a)通过自监督模型获得图像的特征分布。 b)通过扩散模型,对提取的特征进行再采样。c)用已提取的特征作为条件的条件生成模型生成出图片。通过扩散模型对自监督模型提取出的特征建模并采样,既可以获得表征空间的低维特征,又可以获得表征空间的多样性,使得图像生成不依赖于人工标注。模型结构如下图所示。
实现细节
第一阶段使用的是MoCo v3,用它训练出一个特征编码器。第二阶段使用的是特征扩散模型,它的训练和推理过程和DDIM相似。第三阶段使用的是MAGE,并用之前获得的图像特征作为条件指导条件生成,同时文章也是ADM、LDM作为图像生成模型。文章还在图像生成这一步,加上了一个无分类器指导的实验,结果较RCG又有所提高。
结果展示
实验是在 Image 256×256 数据集上实现的,下面分别是定量结果和定性结果。
这篇文章整体的创新点在于用图片自身特征作为条件指导自条件图像生成,整体的模型架构主要是之前的模型的堆叠,所以读这篇文章时,需要对比较多的模型有所掌握,如MoCo v3、DDPM、DDIM、VQGAN、MAGE、ADM、LDM等。