Foundation Model
文章平均质量分 95
顾道长生'
时人不识凌云木,直待凌云始道高。
展开
-
(ECCV-2024)SwiftBrush v2:让你的一步扩散模型比它的老师更好
在本文中,我们旨在提高 SwiftBrush(一种著名的一步式文本到图像扩散模型)的性能,使其与多步稳定扩散模型相媲美。首先,我们探索了 SwiftBrush 和 SD Turbo 之间的质量多样性权衡:前者在图像多样性方面表现出色,而后者在图像质量方面表现出色。这一观察结果促使我们提出了对训练方法的修改,包括更好的权重初始化和高效的 LoRA 训练。此外,我们引入了一种新颖的固定 CLIP 损失,增强了图像文本对齐,从而提高了图像质量。原创 2024-08-29 17:08:41 · 1145 阅读 · 0 评论 -
(Arxiv-2023)对抗性扩散蒸馏
我们引入了对抗扩散蒸馏 (ADD),这是一种新颖的训练方法,只需 1-4 步即可高效采样大规模基础图像扩散模型,同时保持高图像质量。我们使用分数蒸馏来利用大规模现成的图像扩散模型作为教师信号,并结合对抗性损失,以确保即使在 1 或 2 个采样步骤的低步长模式下也能获得高图像保真度。我们的分析表明,我们的模型在单个步骤中明显优于现有的几步方法(GAN,潜在一致性模型),并且仅用四个步骤就达到了最先进的扩散模型 (SDXL) 的性能。ADD 是首次使用基础模型解锁单步实时图像合成的方法。原创 2024-08-16 16:17:31 · 727 阅读 · 0 评论 -
NCSN公式推导(一)
我们引入了一种新的生成模型,其中样本通过朗之万动力学生成,使用通过得分匹配估计的数据分布梯度。由于当数据位于低维流形上时,梯度可能定义不明确且难以估计,因此我们使用不同级别的高斯噪声扰动数据,并联合估计相应的得分,即所有噪声级别的扰动数据分布梯度的矢量场。对于采样,我们提出了一种退火朗之万动力学,其中我们使用对应于逐渐降低的噪声水平的梯度,因为采样过程越来越接近数据流形。我们的框架允许灵活的模型架构,不需要在训练期间进行采样或使用对抗方法,并提供可用于原则模型比较的学习目标。我们的模型在 MNIST、Ce原创 2024-08-15 15:49:26 · 1324 阅读 · 0 评论 -
(ICCV-2023)使用 Transformer 的可扩展扩散模型
我们探索了一种基于transformer架构的新类扩散模型。我们训练图像的潜在扩散模型,将常用的UUU-Net主干替换为在潜在patch上操作的transformer。我们通过Gflops衡量的前向传递复杂性分析了我们的扩散transformer(DiTs)的可扩展性。我们发现,通过增加transformer的深度/宽度或增加输入token的数量来提高Gflops的DiTs,其FID(Fréchet Inception Distance)值始终较低。原创 2024-08-08 16:51:21 · 633 阅读 · 0 评论 -
(ICLR-2024)PIXART-α:扩散Transformer的快速训练,用于逼真的文本到图像合成
最先进的文本生成图像 (T2I) 模型需要显著的训练成本(例如,数百万 GPU 小时),这严重阻碍了 AIGC 社区的基础创新,并增加了CO2CO2排放。本文介绍了 PiXART-α\alphaα,这是一种基于 Transformer 的 T2I 扩散模型,其图像生成质量可与最先进的图像生成器(例如,Imagen、SDXL,甚至 Midjourney)竞争,达到了接近商业应用的标准。此外,它支持高达1024×10241024×1024。原创 2024-08-01 16:13:57 · 596 阅读 · 0 评论 -
(Arxiv-2023)MobileDiffusion:移动设备上即时文本到图像生成
大规模文本转图像扩散模型在移动设备上的部署受到模型规模大和高延迟的阻碍。在本文中,我们介绍了 MobileDiffusion,这是一种超高效的文本转图像扩散模型,通过对架构和采样技术进行大量优化而获得。我们对模型架构设计进行了全面检查,以最大限度地减少模型大小和 FLOPs,同时保持图像生成质量。此外,我们重新审视了扩散 GAN 的高级采样技术,并使一步采样与在基础模型上训练的下游应用程序兼容。定量和定性进行的实证研究证明了我们提出的技术的有效性。原创 2024-07-29 17:11:10 · 791 阅读 · 0 评论 -
(Arxiv-2024)将扩散模型蒸馏为条件 GANs
我们提出了一种方法,将复杂的多步扩散模型蒸馏为单步条件 GAN 学生模型,从而显著加快推理速度,同时保持图像质量。我们的方法将扩散蒸馏解释为成对的图像到图像转换任务,使用扩散模型 ODE 轨迹的噪声到图像对。为了高效计算回归损失,我们提出了 E-LatentLPIPS,这是一种直接在扩散模型的潜在空间中运行的感知损失,利用一组增强。此外,我们调整了扩散模型来构建具有文本对齐损失的多尺度鉴别器,以构建有效的基于条件 GAN 的公式。原创 2024-07-29 10:07:38 · 541 阅读 · 0 评论 -
(CVPR-2024)SwiftBrush:具有变分分数蒸馏的单步文本到图像扩散模型
尽管文本到图像的扩散模型能够根据文本提示生成高分辨率和多样化的图像,但它们通常受到迭代采样过程缓慢的影响。模型蒸馏是加速这些模型的最有效方向之一。然而,以前的蒸馏方法无法保持生成质量,同时需要大量图像进行训练,这些图像要么来自真实数据,要么由教师模型合成生成。为了解决这一限制,我们提出了一种名为 SwiftBrush 的新型无图像蒸馏方案。原创 2024-07-11 15:41:51 · 1062 阅读 · 0 评论 -
(CVPR-2022)利用潜在扩散模型进行高分辨率图像合成
通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据及其它领域实现了最先进的合成结果。此外,它们的公式化允许引入一个引导机制来控制图像生成过程,而无需重新训练。然而,由于这些模型通常直接在像素空间中操作,优化强大的DMs通常需要数百GPU天,且由于顺序评估,推理成本昂贵。为了在有限的计算资源上启用DM训练,同时保留它们的质量和灵活性,我们将它们应用在强大的预训练自编码器的潜在空间中。与以往的工作相比,首次在复杂度降低和细节保留之间达到近乎最优点的训练扩散模型,大大提升了视觉保真度。原创 2024-07-11 09:45:51 · 296 阅读 · 0 评论 -
从正则化视角来分析VLM的涨点策略
首先,CLIP的两个分支(文本和图像)分别得到的特征Ft和Fi,要经过L2 norm归一化,表示为Ft∥Ft∥2FtFi∥Ft∥2Fi从某种程度上讲,原创 2024-04-27 18:08:15 · 725 阅读 · 0 评论 -
(ICML-2021)从自然语言监督中学习可迁移的视觉模型
SOTA计算机视觉系统经过训练可以预测一组固定的预定目标类别。这种受限的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从原始文本中学习图像是一种很有前途的替代方案,它利用了更广泛的监督来源。我们证明,预测哪个标题与哪个图像对应的简单预训练任务是一种高效且可扩展的方法,可以在从互联网收集的 4 亿对(图像、文本)数据集上从头开始学习 SOTA 图像表示。预训练后,使用自然语言来引用学习的视觉概念(或描述新的视觉概念),从而实现模型零样本传输到下游任务。原创 2024-04-23 22:29:50 · 925 阅读 · 3 评论