Matryoshka Diffusion Model 套娃级联超分扩散模型论文笔记

最新推荐文章于 2024-06-21 09:35:46 发布

xiaozhi77

最新推荐文章于 2024-06-21 09:35:46 发布

阅读量423

点赞数

文章标签：人工智能 python 深度学习论文阅读计算机视觉超分辨率重建 DALL·E 2

本文链接：https://blog.csdn.net/xiaozhi77/article/details/134296403

版权

Matryoshka Diffusion Model 套娃级联超分扩散模型

苹果

paper：https://arxiv.org/abs/2310.15111

摘要

扩散模型是生成高质量图像和视频的实用方法，但由于计算和优化的挑战，学习高维模型依然是一项艰巨的任务。现有方法通常采用在像素空间训练级联模型的方法，或者使用一个单独训练的自编码器的下采样潜在空间。本文提出了Matryoshka扩散模型，这是一个端到端的高分辨率图像和视频的合成框架。扩散过程即在多分辨率联合对输入进行降噪，并使用将小尺度输入的特征和参数嵌入大尺度输入中的NestedUNet架构。此外，MDM还支持从低分辨率到高分辨率的渐进式训练时间步（schedule），从而显著改善了的高分辨率生成的优化结果。我们在各种基线任务上证明了本方法的有效性，包括条件类的图像生成、高分辨率文生图和文生视频的应用。值得注意的是，我们可以训练分辨率为1024×1024的单像素空间的模型，证明了使用CC12M数据集（仅包含1.2kw图片）的 zero shot 泛化能力。

引言

扩散模型在用于生成任务中越来越流行，包括图像、视频、音频和文本生成。然而，将之扩散到高分辨率仍然是一个重大挑战，因为模型必须为每一步重新编码整个高分辨率输入。解决这些挑战需要使用具有注意力块的深层结构，这就使得优化更加困难，并且需要更多的计算资源和内存。

近期有一些工作致力于找到用于高分辨率图像的高效网络，然而现有的方法在512×512的分辨率下都没有展示出具有竞争力的结果，无法与主流的基于级联/潜空间的方法相媲美。（级联）比如 DALL-E 2， IMAGEN 和 eDIFF 通过学习低分辨率模型和多个超分扩散模型来保存计算结果，其中每一个模型都是单独训练的。（潜空间）潜在扩散方法进学习低分辨率的扩散模型，但依赖于单独训练的高分辨率编码器。以上两种方法的多级pipeline使得训练和推理都更复杂，通常需要仔细调整超参数。

本文使用嵌套UNet在多个分辨率执行联合扩散，从而将低分辨率扩散过程作为高分辨率生成的一部分（从GAN的多尺度学习中获得类似灵感）。

本文的关键贡献：

提出一个多分辨率损失函数，大大提高了高分辨输入的去噪收敛速度
一个有效的渐进式训练时间步，以训练一个低分辨率扩散模型开始，在训练时间步逐渐增加高分辨率输入和输出。

从经验上讲，多分辨率损失 + 渐进式训练可以在训练成本和模型质量之间找到一个很好的平衡点。

基础知识

扩散模型

给定预定义后验分布的潜在变量模型（也叫前向扩散过程），使用去噪目标进行训练。给定 $x \in \mathbb R^N$ 和一个固定信噪表 $\{\alpha_t, \sigma_t\}_{t=1,...,T}$ ，定义一个潜空间的变量序列 $\{z_t\}_{t=0,...,T}$ 满足：

$q(z_t|x)=\mathcal N(z_t;\alpha_tx,\sigma^2_tI)$ 和 $q(z_t|z_s)=\mathcal N(z_t;\alpha_{t|s}z_s,\sigma^2_{t|s}I)$

当 $z_0=x , \alpha_{t|s}=\alpha_t/\alpha_s , \sigma^2_{t|s}=\sigma^2_t-\alpha^2_{t|s}\sigma^2_s , s<t$ . 在默认情况下，信噪比 $(SNR, \alpha^2_t/\sigma^2_t )$ 随 t 单调下降。

然后模型使用后向模型 $p_\theta(z_{t-1}|z_t)$ 来学习反转过程，即去噪目标：

$\mathcal L_\theta=\mathbb E_{t~[1,T],z_t~q(z_t|x)}[\omega_t \cdot \rVert x_\theta(z_t,t)-x\rVert^2_2]$

其中， $x_\theta(z_t,t)$ 是一个神经网络（默认为UNet的变体），它以时间步 t 为条件，将噪声输入 $z_t$ 投影到无噪的 x 。 $\omega_t\in\mathbb R^+$ 是一个由统计学确定的损失权重函数。实际操作中，可以用噪声预测或者v预测重新参数化 $x_\theta$ 来提高性能。

不像其他的生成模型（比如GAN），扩散模型需要在环境空间中重复使用一个神经网络 $x_{\theta}$ ，因为对于全局信息交互提供充分的计算量至关重要。因此直接为高分辨率生成任务设计有效的扩散模型极具挑战性。目前分层生成是较为常见的解决方案。

级联扩散

第一个扩散模型用以生成初始的低分辨率版本，第二个扩散模型以第一阶段生成为条件，用以生成初始生成的超分辨率版本。级联模型可以多次链接，直至达到最终的分辨率。

由于每个模型都是单独训练的，生成质量可能会受到错误预测的偏差限制。并且需要对不同分辨率的扩散模型进行对应训练。

潜在扩散

通过在预训练的自动编码器在较低分辨率的潜在空间执行扩散，生成高分辨率图像。

这类方法通常使用对抗性目标进行训练，这不仅增加了学习的复杂性，中间的有损压缩过程也限制了生成质量。

端到端模型

直接在高分辨率空间训练端到端的模型，这种方法在不依赖单个模型的情况下，致力于高效的网络设计和偏移噪声时间步以适应高分辨率空间。

没有考虑级联生成的内在结构，这种方法的结果较差于级联和潜在模型。

方法详述

将不同分辨率的噪声图像一起送入去噪网络，各自独立地进行重建

本文提出的 Matryoshka Diffusion Model（MDM）利用数据的层次结构在高分辨率空间进行端到端生成。①MDM首先在扩展空间中推广标准扩散模型，②然后提出了专门的镶嵌架构，③并进行训练。

1. 扩展空间中的扩散模型

与级联或潜在方法不同，MDM通过在扩展空间中引入多分辨率扩散过程来学习单个扩散过程的层次结构。

如上图所示，给定数据 $x\in\mathbb R^N$ ，定义一个时间依赖的潜变量 $z_t=[z^1_t, ...,z^R_t]\in\mathbb R^{N_1+...N_R}$ , 对于每一个 $z_r, r=1,...,R$ :
$q(z^r_t|x)=\mathcal N(z^r_t;\alpha^r_tD^r(x),(\sigma^r_t)^2 I)$

其中， $D^r:\mathbb R^N\to \mathbb R^{N_r}$ 是一个取决于数据的确定性”下采样“运算， $D^r(x)$ 是 x 的一个粗糙/有损压缩版本，比如 $D^r(.)$ 可以是生成低分辨率图像的平均池化层。默认情况下，我们假设以渐进方式进行压缩，有 $N_1<N_2...<N_R=N , D^R(x)=x$ 。此外， $\{\alpha^r_t,\sigma^r_t\}$ 是特定分辨率的噪声表。

本文依照 [1] ，并依据输入的分辨率移动噪声表，然后 MDM 学习后向过程 $p_\theta(z_{t-1}|z_{t})$ 和 R 分辨率的神经去噪器 $x^r_\theta(z_t)$ ，每一个变量 $z^r_{t-1}$ 由时间步t的所有的分辨率 $\{z^1_t...z^R_t\}$ 决定。在推理过程中，MDM 并行生成所有的 R 分辨率的结果，在 $z^r_t$ 之间没有依赖关系。

在扩展空间中建立扩散模型具有明显的优点：

由于在推理过程中我们需要的是全分辨率输出 $z^R_t$ ，所以其他的中间分辨率都被视为额外的隐变量 $z^r_t$ ，可以丰富建模分布的复杂性。
多分辨率依赖通过 $z^r_t$ 提供了共享权重和计算的机会，使我们可以以更有效的方式重新分配计算，从而提高训练和推理效率。

2. 镶嵌的UNet架构

与经典的扩散模型相似，我们使用UNet的风格实现MDM，通过并行地使用跳跃连接和计算块（由多级卷积和自注意力层组成）来保留细粒度的输入信息。

在MDM中，在渐进式压缩的假设下，计算 $z^r_t$ 有益于 $z^{r+1}_t$ 是顺理成章的。这促使我们提出 NestedUNet ——一种将所有分辨率的潜变量 $\{z^r_t\}$ 分成组输入一个去噪函数中作为镶嵌的结构，低分辨率的潜变量将随着标准下采样被逐渐馈送入网络。这种多尺度计算极大地简化了高分辨率生成的学习。

普通UNet的伪代码：

def UNet(x: Tensor):

    return f_skip(x, f_up(f_mid(f_down(x))))

镶嵌的UNet的伪代码：

def NestedUNet(z: List[Tensor], h: Tensor=None, o: List[Tensor]=[]):

    x = z[-1] if h is None else z[-1] + h

    if len(z) > 1:

        # 转移到下一个镶嵌层次

        x = f_skip(x, f_up(NestedUNet(z[:-1], f_down(x), o)))

    else:

        # 已经是最小分辨率

        x = f_skip(x, f_up(f_mid(f_down(x))))

    o.ppend(x)

    return x

早期的探索发现，MDM 通过将大部分参数和计算分配到最低分辨率可以实现更好的可扩展性，[2]中有相似的发现。

3. 学习过程

我们在多个分辨率下联合使用正常的去噪目标来训练MDM：
$\mathcal L_\theta=\mathbb E_{t\sim[1,T]}\mathbb E_{z_t\sim(z_t|x)}\displaystyle\sum^{R}_{r=1}[\omega^r_t \cdot \rVert x^r_\theta(z_t,t)-D^r(x) \rVert^2_2]$

其中， $\omega^r_t$ 是特定分辨率的权重，默认设置为 $\omega^r_t/\omega^R_t=N_R/N_r$ 。

渐进式训练

虽然MDM可以按照上式（该式已经显示了比原始基线更好的收敛性）进行端到端的训练，但我们发现一种简单的渐进式训练方法（与GAN类似），可以大大加快高分辨率模型的真实训练时间。具体而言，我们将训练分为R个阶段，在R个阶段中，逐步将更高的分辨率添加到上式的训练目标中，等同于学习MDM在 $[z^1_t,...z^r_t]$ 的序列模型，直到 r 达到最终的分辨率。该训练方法避免了从一开始就进行高分辨率训练的高成本，加快了整体收敛速度。此外，我们可以结合混合分辨率训练，即在单个批次中同时训练具有不同最终分辨率的样本。

实验

MDM是一种通用的技术，适用于任何输入维度可以逐步压缩的问题。我们认为两个应用超出了以类别为条件的图像生成——由文本生成图片和由文本生成视频——证明了此方法的有效性。

数据集

以类别为条件的图像生成的模型所用的数据集为 ImageNet（256×256）

通用的文本生成图像的模型所用的数据集为 Conceptual 12M（CC12M，256×256 和 1024×1024）

文本到视频的模型所用的数据集为 WebVid-10M（16×256×256）

细节

最内层的 UNet 分辨率设为64×64，将大部分自注意力层转移到最低级别的特征（16×16）上，从而为内部 UNet 提供了约 4.5 亿参数。

像前面提到的，模型的高分辨率部分可以以最小的参数增加量很容易地连接到 NestedUNet 的前一级上，

对于文生图和文生视频模型，我们用 FLAN-T5 XL 作为文本编码器，因为它大小适中且其性能适合用于语言编码。此外，我们还在文本表示上应用了两个可学习的自注意力层来增强文本图像对齐。

对于图像生成：

对于分辨率为256的数据，使用 $\{64^2,256^2\}$ 和 $\{64^2,128^2,256^2\}$ 的MDMs

对于分辨率为1024的数据，使用 $\{64^2,256^2,1024^2\}$ 和 $\{64^2,128^2,256^2,512^2,1024^2\}$ 的 MDMs

对于视频生成：

MDM 由与图像一样的 64×64 UNet 嵌套，并增加了额外的学习时间动态的注意力层，总分辨率为 $\{64^2,16\times64^2,16\times256^2\}$ 。我们对空间 $D^r(.)$ 和时间 $D^r(.)$ 的第一帧索引使用双线性插值。

除非特别说明，我们对所有 MDMs 都应用渐进和混合分辨率训练。ImageNet 使用8个 A100 GPU，CC12M 和 WebVid-10M 分别使用32个A100 GPU。

结果

与基线比较：

在ImageNet 256×256的数据集上：

选择标准UNet作为简单DM基线，直接应用于高分辨率输入，虽然也考虑了 Nested UNet 结构，但忽略了低分辨率损失，两种情况基本都与近期的端到端扩散模型相同；
对于级联DM基线，我们先预训练一个64×64的DM 20W 迭代步，然后使用同样大小的上采样UNet。我们使用标准噪声增强和扫描以在推理时间获得最佳噪声水平（非常关键）；
对于LDM实验，我们使用预训练的自动编码器，对输入分辨率进行下采样，并且在64×64的低分辨率模型上采用同样的架构；
对于MDM的变体，我们使用一个与基线UNet同样大小的NestedUNet，共实验两个变体，一个直接使用等式 (3) 的多分辨率损失函数（表示为无PT）进行训练，另一个从 64×64 扩散模型恢复（渐进式训练）。

参考文献

序号	内容	备注
1	Max Bain, Arsha Nagrani, G¨ul Varol, and Andrew Zisserman. Frozen in time: A joint video and image encoder for end-to-end retrieval. In IEEE International Conference on Computer Vision, 2021.	冻结的时间：一个联合视频和图像编码器的端到端检索
2	Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, Bryan Catanzaro, et al. ediffi: Text-to-image diffusion models with an ensemble of expert denoisers. arXiv preprint arXiv:2211.01324, 2022.	ediff：文生图DM和专业降噪器的合体
3	Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer. Scheduled sampling for sequence prediction with recurrent neural networks. Advances in neural information processing systems, 28, 2015.	用RNN进行序列预测的时序采样
4	Eric R Chan, Connor Z Lin, Matthew A Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas Guibas, Jonathan Tremblay, Sameh Khamis, et al. Efficient geometry-aware 3d generative adversarial networks. arXiv preprint arXiv:2112.07945, 2021.	几何感知3DGAN
5	Soravit Changpinyo, Piyush Sharma, Nan Ding, and Radu Soricut. Conceptual 12M: Pushing web-scale image-text pre-training to recognize long-tail visual concepts. In CVPR, 2021.	CC12M数据集
6	Hansheng Chen, Jiatao Gu, Anpei Chen, Wei Tian, Zhuowen Tu, Lingjie Liu, and Hao Su. Single- stage diffusion nerf: A unified approach to 3d generation and reconstruction, 2023.	一阶段扩散神经：三维生成和重建的统一方法
7	Ting Chen. On the importance of noise scheduling for diffusion models. arXiv preprint arXiv:2301.10972, 2023.	DM噪声排序的重要性
8	Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, HongkunYu, Slav Petrov, Ed H. Chi, JeffDean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, and Jason Wei. Scaling instruction-finetuned language models, 2022. URL https://arxiv.org/abs/2210.11416.	缩放的预处理-微调语言模型
9	Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. ImageNet: A Large-scale Hierarchical Image Database. IEEE Conference on Computer Vision and Pattern Recognition, pp. 248–255, 2009.	ImageNet数据集
10	Emily Denton, Arthur Szlam, and Rob Fergus. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks. NIPS, pp. 1–9, 2015.	使用对抗网络的拉普拉斯金字塔的深度生成图像模型
11	Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. Advances in Neural Information Processing Systems, 34:8780–8794, 2021.	[5]DM在语义合成上击败了GAN
12	Patrick Esser, Robin Rombach, and Bjorn Ommer. Taming transformers for high-resolution im- age synthesis. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 12873–12883, 2021	用于高分辨率图像生成的驯服transformer
13	Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, and Yaniv Taigman. Make- a-scene: Scene-based text-to-image generation with human priors. 2022. doi: 10.48550/ARXIV. 2203.13131. URL https://arxiv.org/abs/2203.13131.	基于场景的文生图
14	Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In NeurIPS, 2014.	GAN
15	Jiatao Gu, Lingjie Liu, Peng Wang, and Christian Theobalt. Stylenerf: A style-based 3d-aware generator for high-resolution image synthesis. arXiv preprint arXiv:2110.08985, 2021.	基于风格的3D感知高分辨率合成器
16	Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Miguel Angel Bautista, and Josh Susskind. f-dm: A multi- stage diffusion model via progressive signal transformation. arXiv preprint arXiv:2210.04955, 2022.	f-dm：通过渐进信号交换的多级扩散模型
17	Jiatao Gu, Alex Trevithick, Kai-En Lin, Josh Susskind, Christian Theobalt, Lingjie Liu, and Ravi Ramamoorthi. Nerfdiff: Single-image view synthesis with nerf-guided distillation from 3d-aware diffusion. arXiv preprint arXiv:2302.10109, 2023.	Nerfdiff：单图视觉合成与nerf引导的从3d感知扩散而来的蒸馏
18	Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, and Bo Dai. Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv:2307.04725, 2023.	无需微调的个性化文生图
19	Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems, 30, 2017.	用双时标更新规则训练GAN使其收敛于纳什均衡
20	Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 33:6840–6851, 2020.	[2]DDPM
21	Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P Kingma, Ben Poole, Mohammad Norouzi, David J Fleet, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303, 2022a.	DM生成高清视频
22	Jonathan Ho, Chitwan Saharia,William Chan, David J Fleet, MohammadNorouzi, andTim Salimans. Cascaded diffusion models for high fidelity image generation. J. Mach. Learn. Res., 23:47–1, 2022b.	生成高保真图像的级联扩散模型
23	Jonathan Ho, Tim Salimans, Alexey A Gritsenko, William Chan, Mohammad Norouzi, and David J Fleet. Video diffusion models. In ICLR Workshop on Deep Generative Models for Highly Structured Data, 2022c.	[9]视频DM
24	Emiel Hoogeboom, Jonathan Heek, and Tim Salimans. simple diffusion: End-to-end diffusion for high resolution images. In International Conference on Machine Learning, 2023. URL [PDF] simple diffusion: End-to-end diffusion for high resolution images \| Semantic Scholar.	简单扩散：生成高分辨率图像的端到端扩散
25	Allan Jabri, David Fleet, and Ting Chen. Scalable adaptive computation for iterative generation. arXiv preprint arXiv:2212.11972, 2022.	迭代生成的可缩放自适应计算
26	Zahra Kadkhodaie, Florentin Guth, St´ephane Mallat, and Eero P Simoncelli. Learning multi-scale local conditional probability models of images. In The Eleventh International Conference on Learning Representations, 2022.	学习图像的多尺度局部条件概率模型
27	Nal Kalchbrenner, A¨aron van den Oord, Karen Simonyan, Ivo Danihelka, Oriol Vinyals, Alex Graves, and Koray Kavukcuoglu. Video pixel networks. In Doina Precup and Yee Whye Teh (eds.), Proceedings of the 34th International Conference on Machine Learning, volume 70 of Proceedings ofMachine Learning Research, pp. 1771–1779. PMLR, 06–11 Aug 2017.
28	Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, and Taesung Park. Scaling up gans for text-to-image synthesis. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 10124–10134, 2023.	GigaGAN文生图的放大GAN
29	Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of gans for improved quality, stability, and variation. arXiv preprint arXiv:1710.10196, 2017.	用渐进增长的GAN提升质量、稳定性和多样性
30	Xiang Li, John Thickstun, Ishaan Gulrajani, Percy S Liang, and Tatsunori B Hashimoto. Diffusion- lm improves controllable text generation. Advances in Neural Information Processing Systems, 35:4328–4343, 2022.	可控文本生成
31	Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C. Lawrence Zitnick. Microsoft COCO: Common Objects in Context. European Conference on Computer Vision, pp. 740–755, 2014.	COCO数据集
32	Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, and Mark D Plumbley. Audioldm: Text-to-audio generation with latent diffusion models. arXiv preprint arXiv:2301.12503, 2023a.	LDM文本到音频
33	Ruoshi Liu, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, and Carl Vondrick. Zero-1-to-3: Zero-shot one image to 3d object, 2023b.	zero-shot的图像到3D对象
34	Alexander Quinn Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models. In International Conference on Machine Learning, pp. 8162–8171. PMLR, 2021.	[3]改进的DDPM
35	Aaron van den Oord, Nal Kalchbrenner, Oriol Vinyals, Lasse Espeholt, Alex Graves, and Koray Kavukcuoglu. Conditional Image Generation with PixelCNN Decoders. Advances in Neural Information Processing Systems, pp. 4790–4798, 2016. ISSN 10495258.	使用PixelCNN解码器的有条件图像生成
36	Aaron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. Neural Discrete Representation Learning. NIPS, 2017.	神经离散表示学习
37	William Peebles and Saining Xie. Scalable diffusion models with transformers. arXiv preprint arXiv:2212.09748, 2022.	可缩放的带transformer的DM
38	Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas M¨uller, Joe Penna, and Robin Rombach. Sdxl: improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023.	改进高分辨率图像合成的LDM
39	Ben Poole, Ajay Jain, Jonathan T Barron, and Ben Mildenhall. Dreamfusion: Text-to-3d using 2d diffusion. arXiv preprint arXiv:2209.14988, 2022.	使用2D扩散模型由文本生成3D目标
40	Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.	从自然语言有监督学习中学习可转移的视觉模型
41	Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text- conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 2022.	[7]用clip潜空间分层文本条件的图片生成
42	Severi Rissanen, Markus Heinonen, and Arno Solin. Generative modelling with inverse heat dissipation. In The Eleventh International Conference on Learning Representations, 2023. URL Generative Modelling with Inverse Heat Dissipation \| OpenReview.	逆热耗生成模型
43	Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj¨orn Ommer. Highresolution image synthesis with latent diffusion models. In Proceedings ofthe IEEE/CVF conference on computer vision and pattern recognition, pp. 10684–10695, 2022.	[6]LDM高分辨率图片语义分析
44	Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-Net : Convolutional Networks for Biomed- ical Image Segmentation. International Conference on Medical Image Computing and Computer- Assisted Intervention, pp. 234–241, 2015	UNet：用于生物医学图像分割的CNN
45	Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J Fleet, and Mohammad Norouzi. Image super-resolution via iterative refinement. arXiv:2104.07636, 2021.	[8]迭代增强的图片超分
46	Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in Neural Information Processing Systems, 35:36479–36494, 2022.	深度语言理解的文生图模型
47	Tim Salimans and Jonathan Ho. Progressive distillation for fast sampling of diffusion models. arXiv preprint arXiv:2202.00512, 2022.	DM模型快速采样的渐进蒸馏
48	Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, and Yaniv Taigman. Make-a-video: Text-to-video generation without text-video data, 2022.	无需文本-视频对数据的文生视频
49	Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning, pp. 2256–2265. PMLR, 2015.	[1]使用非平衡态热力学的深度无监督学习DM
50	Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. arXiv preprint arXiv:2011.13456, 2020.	[4]基于分数的随机微分方程生成DM
51	A¨aron Van Den Oord, Nal Kalchbrenner, and Koray Kavukcuoglu. Pixel recurrent neural networks. In International conference on machine learning, pp. 1747–1756. PMLR, 2016.	像素级RNN
52	Dirk Weissenborn, Oscar T¨ackstr¨om, and Jakob Uszkoreit. Scaling autoregressive video models. 2020.	可缩放的自回归视频模型
53	Chenfei Wu, Jian Liang, Lei Ji, Fan Yang, Yuejian Fang, Daxin Jiang, and Nan Duan. N¨uwa: Visual synthesis pre-training for neural visual world creation, 2021.	在神经视觉世界创造的视觉合成与训练模型
54	ZeyueXue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, and Ping Luo. Raphael: Text-to-image generation via large mixture of diffusion paths. arXiv preprint arXiv:2305.18295, 2023.	通过扩散路径的大量混合实现文生图
55	Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong, Gunjan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yinfei Yang, Burcu Karagol Ayan, Ben Hutchinson, Wei Han, Zarana Parekh, Xin Li, Han Zhang, Jason Baldridge, and YonghuiWu. Scaling autoregressive models for content-rich text-to-image generation. 2022.	使内容更丰富的文生图可缩放自回归模型
56	Yizhe Zhang, Jiatao Gu, Zhuofeng Wu, Shuangfei Zhai, Josh Susskind, and Navdeep Jaitly. Planner: Generating diversified paragraph via latent language diffusion model. arXiv preprint arXiv:2306.02531, 2023.	基于LDM语言模型的多样化段落生成

xiaozhi77

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Matryoshka Diffusion Model 套娃级联超分扩散模型论文笔记

扩散模型是生成高质量图像和视频的实用方法，但由于计算和优化的挑战，学习高维模型依然是一项艰巨的任务。现有方法通常采用在像素空间训练级联模型的方法，或者使用一个单独训练的自编码器的下采样潜在空间。本文提出了Matryoshka扩散模型，这是一个端到端的高分辨率图像和视频的合成框架。扩散过程即在多分辨率联合对输入进行降噪，并使用将小尺度输入的特征和参数嵌入大尺度输入中的NestedUNet架构。此外，MDM还支持从低分辨率到高分辨率的渐进式训练时间步（schedule），从而显著改善了的高分辨率生成的优化结果。
复制链接

扫一扫