数据驱动的世界中,生成模型扮演着至关重要的角色,尤其是在需要创建逼真样本的任务中。扩散模型(Diffusion Models, DM),以其卓越的样本质量和广泛的模式覆盖能力,已经成为众多数据生成任务的首选。然而,这些模型在实际部署时面临的挑战,如长时间的推理过程和对内存的大量需求,限制了它们在资源受限的设备上的应用。为了克服这些限制,本文提出了一种创新的稀疏微调方法,旨在不牺牲生成质量的前提下,显著提升扩散模型的效率和实用性。这种方法通过在卷积和线性层引入稀疏掩码,有效减少了模型的计算复杂度,降低了内存需求,同时通过渐进式训练策略,确保了生成样本的高质量。它在GPU上的推理速度提升了约1.2倍,且与硬件架构的兼容性使其在实际部署中更具优势。这种平衡了效率和质量的方法,为扩散模型的广泛应用铺平了道路。

Table 1展示了在CIFAR10 32x32和CelebA 64x64两个数据集上,对U-ViT(一种基于Transformer的扩散模型)进行不同处理后的评估结果。表格中列出了以下几种处理方法的结果:
-
UViT Small U-ViT: 这是基线模型UViT在未进行任何稀疏化处理时的性能。在CIFAR10数据集上的FID为3.20,MACs为11.34亿次;在CelebA数据集上的FID为2.87,MACs为11.34亿次。
-
Half UViT Small U-ViT: 这是将UViT模型参数减少近50%后的模型性能。可以看到,FID显著增加,在CIFAR10数据集上FID为678.20,在CelebA数据集上FID为441.37,而MACs分别减少到5.83亿次。
-
UViT Small ASP: 这是使用NVIDIA提供的Automatic Sparsity (ASP)工具对UViT模型进行稀疏剪枝后的性能。在CIFAR10数据集上的FID为319.87,在CelebA数据集上的FID为438.31,MACs分别减少到5.76亿次。
从Table 1中,我们可以观察到几个关键的发现:
当直接将模型大小减半(Half UViT Small)时,对模型的生成质量产生了明显的负面影响。具体来说,FID值显著增加,这表明模型生成的样本与真实数据