扩散模型
文章平均质量分 94
顾道长生'
时人不识凌云木,直待凌云始道高。
展开
-
(Arxiv-2024)DiffLoRA:通过扩散生成个性化低秩自适应权重
个性化文本转图像生成因其能够根据用户定义的提示生成特定身份的高保真肖像而备受关注。现有方法通常涉及测试时微调或合并额外的预训练分支。然而,这些方法难以同时满足效率、身份保真度和保留模型原始生成能力的需求。在本文中,我们提出了 DiffLoRA,这是一种新颖的方法,它利用扩散模型作为超网络来根据参考图像预测个性化低秩自适应 (LoRA) 权重。通过将这些 LoRA 权重集成到文本转图像模型中,DiffLoRA 无需进一步训练即可在推理过程中实现个性化。原创 2024-09-23 16:23:58 · 1298 阅读 · 0 评论 -
(CVPR-2022)感知优先的扩散模型训练
扩散模型通过优化相应损失项的加权和(即去噪得分匹配损失)来学习恢复被不同程度的噪声破坏的噪声数据。在本文中,我们表明,恢复被某些噪声水平破坏的数据为模型学习丰富的视觉概念提供了适当的代理任务。我们建议通过重新设计目标函数的加权方案,在训练期间优先考虑此类噪声水平。我们表明,无论数据集、架构和采样策略如何,我们对加权方案的简单重新设计都可以显著提高扩散模型的性能。P2通过加权强调提升粗略和内容阶段的权重(接近噪声端),为学习丰富的视觉概念提供了良好的视觉偏置。本质感觉是牺牲图像细节信息来换取fid的提升。原创 2024-09-15 19:16:50 · 1388 阅读 · 0 评论 -
(Arxiv-2022)eDiff-I:具有一组专家降噪器的文本到图像扩散模型
大规模基于扩散的生成模型已在文本条件下的高分辨率图像合成方面取得突破,展示了复杂的文本理解和出色的零样本泛化能力。从随机噪声开始,这种文本到图像的扩散模型在以文本提示为条件的同时,以迭代方式逐渐合成图像。我们发现它们的合成行为在整个过程中发生了质的变化:在采样的早期,生成强烈依赖于文本提示来生成文本对齐的内容,而后来,文本条件几乎完全被忽略,任务变为生成高视觉保真度的输出。这表明,在整个生成过程中共享模型参数(文献中的标准做法)可能并不理想,无法最好地捕捉生成过程中这些截然不同的模式。原创 2024-09-10 20:40:32 · 1396 阅读 · 0 评论 -
(CVPR-2023)面向实用的即插即用扩散模型
基于扩散的生成模型在图像生成方面取得了显著的成功。它们的指导公式允许外部模型即插即用地控制各种任务的生成过程,而无需微调扩散模型。然而,直接使用公开的现成模型进行指导会失败,因为它们在噪声输入上的表现不佳。为此,现有的做法是使用被噪声破坏的标记数据对指导模型进行微调。在本文中,我们认为这种做法在两个方面存在局限性:(1)对于单个指导模型来说,处理具有极其多样化噪声的输入太难了;(2)收集标记数据集阻碍了各种任务的扩展。原创 2024-09-09 19:03:55 · 1023 阅读 · 0 评论 -
(ECCV-2024)SwiftBrush v2:让你的一步扩散模型比它的老师更好
在本文中,我们旨在提高 SwiftBrush(一种著名的一步式文本到图像扩散模型)的性能,使其与多步稳定扩散模型相媲美。首先,我们探索了 SwiftBrush 和 SD Turbo 之间的质量多样性权衡:前者在图像多样性方面表现出色,而后者在图像质量方面表现出色。这一观察结果促使我们提出了对训练方法的修改,包括更好的权重初始化和高效的 LoRA 训练。此外,我们引入了一种新颖的固定 CLIP 损失,增强了图像文本对齐,从而提高了图像质量。原创 2024-08-29 17:08:41 · 1217 阅读 · 0 评论 -
(Arxiv-2023)对抗性扩散蒸馏
我们引入了对抗扩散蒸馏 (ADD),这是一种新颖的训练方法,只需 1-4 步即可高效采样大规模基础图像扩散模型,同时保持高图像质量。我们使用分数蒸馏来利用大规模现成的图像扩散模型作为教师信号,并结合对抗性损失,以确保即使在 1 或 2 个采样步骤的低步长模式下也能获得高图像保真度。我们的分析表明,我们的模型在单个步骤中明显优于现有的几步方法(GAN,潜在一致性模型),并且仅用四个步骤就达到了最先进的扩散模型 (SDXL) 的性能。ADD 是首次使用基础模型解锁单步实时图像合成的方法。原创 2024-08-16 16:17:31 · 750 阅读 · 0 评论 -
NCSN公式推导(一)
我们引入了一种新的生成模型,其中样本通过朗之万动力学生成,使用通过得分匹配估计的数据分布梯度。由于当数据位于低维流形上时,梯度可能定义不明确且难以估计,因此我们使用不同级别的高斯噪声扰动数据,并联合估计相应的得分,即所有噪声级别的扰动数据分布梯度的矢量场。对于采样,我们提出了一种退火朗之万动力学,其中我们使用对应于逐渐降低的噪声水平的梯度,因为采样过程越来越接近数据流形。我们的框架允许灵活的模型架构,不需要在训练期间进行采样或使用对抗方法,并提供可用于原则模型比较的学习目标。我们的模型在 MNIST、Ce原创 2024-08-15 15:49:26 · 1504 阅读 · 0 评论 -
(ICCV-2023)使用 Transformer 的可扩展扩散模型
我们探索了一种基于transformer架构的新类扩散模型。我们训练图像的潜在扩散模型,将常用的UUU-Net主干替换为在潜在patch上操作的transformer。我们通过Gflops衡量的前向传递复杂性分析了我们的扩散transformer(DiTs)的可扩展性。我们发现,通过增加transformer的深度/宽度或增加输入token的数量来提高Gflops的DiTs,其FID(Fréchet Inception Distance)值始终较低。原创 2024-08-08 16:51:21 · 686 阅读 · 0 评论 -
(ICLR-2024)PIXART-α:扩散Transformer的快速训练,用于逼真的文本到图像合成
最先进的文本生成图像 (T2I) 模型需要显著的训练成本(例如,数百万 GPU 小时),这严重阻碍了 AIGC 社区的基础创新,并增加了CO2CO2排放。本文介绍了 PiXART-α\alphaα,这是一种基于 Transformer 的 T2I 扩散模型,其图像生成质量可与最先进的图像生成器(例如,Imagen、SDXL,甚至 Midjourney)竞争,达到了接近商业应用的标准。此外,它支持高达1024×10241024×1024。原创 2024-08-01 16:13:57 · 632 阅读 · 0 评论 -
(Arxiv-2023)MobileDiffusion:移动设备上即时文本到图像生成
大规模文本转图像扩散模型在移动设备上的部署受到模型规模大和高延迟的阻碍。在本文中,我们介绍了 MobileDiffusion,这是一种超高效的文本转图像扩散模型,通过对架构和采样技术进行大量优化而获得。我们对模型架构设计进行了全面检查,以最大限度地减少模型大小和 FLOPs,同时保持图像生成质量。此外,我们重新审视了扩散 GAN 的高级采样技术,并使一步采样与在基础模型上训练的下游应用程序兼容。定量和定性进行的实证研究证明了我们提出的技术的有效性。原创 2024-07-29 17:11:10 · 830 阅读 · 0 评论 -
(Arxiv-2024)将扩散模型蒸馏为条件 GANs
我们提出了一种方法,将复杂的多步扩散模型蒸馏为单步条件 GAN 学生模型,从而显著加快推理速度,同时保持图像质量。我们的方法将扩散蒸馏解释为成对的图像到图像转换任务,使用扩散模型 ODE 轨迹的噪声到图像对。为了高效计算回归损失,我们提出了 E-LatentLPIPS,这是一种直接在扩散模型的潜在空间中运行的感知损失,利用一组增强。此外,我们调整了扩散模型来构建具有文本对齐损失的多尺度鉴别器,以构建有效的基于条件 GAN 的公式。原创 2024-07-29 10:07:38 · 609 阅读 · 0 评论 -
(CVPR-2024)通过多阶段框架和定制的多解码器架构提高扩散模型的训练效率
扩散模型作为强大的深度生成工具,在各种应用中表现出色。它们通过两个步骤进行操作:将噪声引入训练样本,然后使用模型将随机噪声转换为新样本(例如图像)。然而,它们出色的生成性能受到训练和采样速度缓慢的阻碍。这是因为需要跟踪广泛的正向和反向扩散轨迹,并使用具有跨多个时间步(即噪声级别)的大量参数的大型模型。为了应对这些挑战,我们提出了一个受经验发现启发的多阶段框架。这些观察结果表明,使用针对每个时间步量身定制的不同参数,同时保留跨所有时间步共享的通用参数的优势。原创 2024-07-28 17:26:04 · 342 阅读 · 0 评论 -
(ICLR-2024)SDXL:改进高分辨率图像合成的潜在扩散模型
我们提出了 SDXL,一种用于文本到图像合成的潜在扩散模型。与之前版本的 Stable Diffusion 相比,SDXL 利用了三倍大的 UNet 主干:模型参数的增加主要是由于更多的注意力块和更大的交叉注意力上下文,因为 SDXL 使用第二的文本编码器。我们设计了多种新颖的条件方案并在多种纵横比上训练 SDXL。我们还引入了一个细化模型,该模型用于提高使用事后图像到图像技术由 SDXL 生成的样本的视觉保真度。原创 2024-07-22 20:37:08 · 923 阅读 · 0 评论 -
(CVPR-2024)FreeU:扩散 U-Net 中的免费午餐
在本文中,我们揭示了扩散 U-Net 尚未开发的潜力,它就像一顿“免费午餐”,可以大幅提高生成质量。我们首先研究了 U-Net 架构对去噪过程的关键贡献,并确定其主干主要用于去噪,而其跳跃连接主要将高频特征引入解码器模块,从而导致可能忽略主干网络固有的关键功能。利用这一发现,我们提出了一种简单而有效的方法,称为“FreeU”,它无需额外的训练或微调即可提高生成质量。我们的主要见解是战略性地重新加权来自 U-Net 的跳跃连接和主干特征图的贡献,以利用 U-Net 架构的两个组件的优势。原创 2024-07-22 15:29:51 · 1282 阅读 · 0 评论 -
SwiftBrush算法与代码解读
个人理解:一步去噪是利用教师模型强力去噪能力去校正学生模型(Input:高斯白噪声+prompt Output:去噪后的样本)的参数,随机采样t可以覆盖各个阶段,从而使学生模型学到教师模型在不同噪声级别上的去噪能力。最终实现一步去噪。原创 2024-07-12 17:24:07 · 968 阅读 · 0 评论 -
(CVPR-2024)SwiftBrush:具有变分分数蒸馏的单步文本到图像扩散模型
尽管文本到图像的扩散模型能够根据文本提示生成高分辨率和多样化的图像,但它们通常受到迭代采样过程缓慢的影响。模型蒸馏是加速这些模型的最有效方向之一。然而,以前的蒸馏方法无法保持生成质量,同时需要大量图像进行训练,这些图像要么来自真实数据,要么由教师模型合成生成。为了解决这一限制,我们提出了一种名为 SwiftBrush 的新型无图像蒸馏方案。原创 2024-07-11 15:41:51 · 1122 阅读 · 0 评论 -
(CVPR-2022)利用潜在扩散模型进行高分辨率图像合成
通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据及其它领域实现了最先进的合成结果。此外,它们的公式化允许引入一个引导机制来控制图像生成过程,而无需重新训练。然而,由于这些模型通常直接在像素空间中操作,优化强大的DMs通常需要数百GPU天,且由于顺序评估,推理成本昂贵。为了在有限的计算资源上启用DM训练,同时保留它们的质量和灵活性,我们将它们应用在强大的预训练自编码器的潜在空间中。与以往的工作相比,首次在复杂度降低和细节保留之间达到近乎最优点的训练扩散模型,大大提升了视觉保真度。原创 2024-07-11 09:45:51 · 343 阅读 · 0 评论 -
DDPM代码解读
正弦位置嵌入(SinusoidalPositionEmbeddings)模块将形状张量(batch_size, 1)作为输入(即一批图像中若干噪声图像的噪声水平),并将其转化为形状张量(batch_size, dim),其中 dim 是位置嵌入的维度。正向扩散过程逐渐向真实图像添加噪声,从真实分布开始,在若干时间步T内进行。了解了DDPM优雅的理论推导后,开始手撕代码,这样可以更深入理解DDPM背后的思想。组归一化,定义一个类,将用于在注意层之前应用组归一化。的>噪声级别作为输入,并返回形状为。原创 2024-07-10 18:43:34 · 819 阅读 · 0 评论 -
DDPM公式推导(六)
为了整篇文章的完整性,给出文章剩余部分的翻译。这篇博客没有公式推导部分。原创 2024-06-17 10:37:12 · 1124 阅读 · 0 评论 -
DDPM公式推导(五)
扩散模型可能看起来是一类受限制的潜在变量模型,但它们在实现中允许很大的自由度。必须选择正向过程的方差βt以及逆向过程的模型架构和高斯分布参数化。为了指导我们的选择,我们在扩散模型和去噪分数匹配之间建立了一个新的显式连接(第 3.2 节),从而为扩散模型提供了一个简化的加权变分边界目标(第 3.4 节)。最终,我们的模型设计通过简单性和实证结果得到了证明(第 4 节)。我们的讨论按公式(5)的术语进行分类。原创 2024-06-17 10:29:52 · 349 阅读 · 0 评论 -
DDPM公式推导(四)
扩散模型可能看起来是一类受限制的潜在变量模型,但它们在实现中允许很大的自由度。必须选择正向过程的方差βt\beta_tβt以及逆向过程的模型架构和高斯分布参数化。为了指导我们的选择,我们在扩散模型和去噪分数匹配之间建立了一个新的显式连接(第 3.2 节),从而为扩散模型提供了一个简化的加权变分边界目标(第 3.4 节)。最终,我们的模型设计通过简单性和实证结果得到了证明(第 4 节)。我们的讨论按公式(5)的术语进行分类。我们忽略了通过重参数化可以使前向过程的方差βt\beta_tβt变得可学习的事实,原创 2024-06-16 10:53:50 · 1091 阅读 · 0 评论 -
DDPM公式推导(三)
2 Background扩散模型【53】是一种以 pθ(x0):=∫pθ(x0:T)dx1:Tp_\theta\left(\mathbf{x}_0\right):=\int p_\theta\left(\mathbf{x}_{0: T}\right) d \mathbf{x}_{1: T}pθ(x0):=∫pθ(x0:T)dx1:T 形式的潜在变量模型,其中 x1,…,xT\mathbf{x}_1, \ldots, \mathbf{x}_Tx1,…,xT 是与数据 x0∼q(x0)\math原创 2024-06-16 10:29:25 · 379 阅读 · 0 评论 -
DDPM公式推导(二)
扩散模型【53】是一种以 pθ(x0):=∫pθ(x0:T)dx1:Tp_\theta\left(\mathbf{x}_0\right):=\int p_\theta\left(\mathbf{x}_{0: T}\right) d \mathbf{x}_{1: T}pθ(x0):=∫pθ(x0:T)dx1:T 形式的潜在变量模型,其中 x1,…,xT\mathbf{x}_1, \ldots, \mathbf{x}_Tx1,…,xT 是与数据 x0∼q(x0)\mathbf{x}_0 \sim原创 2024-06-15 14:16:59 · 878 阅读 · 0 评论 -
DDPM公式推导(一)
我们使用扩散概率模型(一类受非平衡热力学启发的潜在变量模型)展示了高质量的图像合成结果。根据扩散概率模型与采用Langevin动力学的去噪得分匹配之间的新颖联系设计的加权变分下界进行训练,我们获得了最佳结果。我们的模型自然而然地使用一种渐进的有损解压方案,这可以解释为自回归解码的推广。在无条件CIFAR10数据集上,我们取得了9.46的Inception得分和3.17的最先进的FID得分。在 256×256256 \times 256256×256 的LSUN数据集上,我们获得了与ProgressiveGA原创 2024-06-14 10:33:16 · 367 阅读 · 0 评论