AIGC系列之：实时出图的SDXL Turbo模型介绍

最新推荐文章于 2025-05-12 18:44:46 发布

AIGC Studio

最新推荐文章于 2025-05-12 18:44:46 发布

阅读量1.5k

点赞数 22

分类专栏： AIGC 深度学习文章标签：计算机视觉 AIGC StableDiffusion 图像生成深度学习

本文链接：https://blog.csdn.net/xs1997/article/details/135742642

版权

深度学习同时被 2 个专栏收录

333 篇文章

订阅专栏

AIGC

325 篇文章

订阅专栏

StabilityAI新发布的SDXLTurbo是一个基于SDXL1.0的实时合成模型，通过AdversarialDiffusionDistillation提高生成速度，可在一步或少数步骤内生成高质量图像。它已集成到Huggingfacetransformers库中，但局限于512x512分辨率，且在人脸生成和文本清晰度上有限制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原理介绍

StabilityAI在刚刚发布Stable Video Diffusion之后，2023年11月29日又发布了爆炸性模型：SDXL Turbo，SDXL Turbo是在SDXL 1.0的基础上采用新的蒸馏方案，让模型只需要一步就可以生成高质量图像，主要焦点是速度，因为它能够实时生成图像。目前代码，模型和技术报告已经开源。简而言之，SDXL Turbo是SDXL 1.0的一个蒸馏版本，专为实时合成而训练。

SDXL Turbo是基于SDXL 1.0经过实时合成训练开发而成，是一种快速生成的文本到图像模型，可以在单个网络评估中从文本提示合成逼真的图像。SDXL-Turbo基于一种称为对抗扩散蒸馏(Adversarial Diffusion Distillation, ADD)的新型训练方法，该方法允许在1到4步内以高图像质量采样大规模基础图像扩散模型。该方法使用分数蒸馏来利用大规模现成的图像扩散模型作为教师信号，并将其与对抗损失相结合，以确保即使在一个或两个采样步骤的低步范围内也能获得高图像保真度。

代码: https://github.com/Stability-AI/generative-models
论文: Adversarial Diffusion Distillation — Stability AI
演示: http://clipdrop.co/stable-diffusion-turbo

上面的图表评估了用户对SDXL-Turbo的偏好，而不是其他单步和多步模型。在图像质量和快速跟踪方面，仅一步评估的SDXL-Turbo比四个(或更少)步骤评估的LCM-XL更受人们的青睐。此外，SDXL-Turbo使用四个步骤进一步提高了性能。

使用方法

SDXL Turbo已经集成到Huggingface的transformers库中了,这里做一个简单的展示如何使用，首先可以先安装transformers库

pip install diffusers transformers accelerate --upgrade

SDXL-Turbo在文生图中不使用guidance_scale或negative_prompt，所以用guidance_scale=0.0禁用它。该模型最好生成512x512大小的图像，但更大的图像也可以工作。一个步骤就足以生成高质量的图像。

from diffusers import AutoPipelineForText2Image
import torch

pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")

prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."

image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]

当使用SDXL-Turbo进行图像到图像的生成时，请确保num_inference_steps *强度大于或等于1。image-to-image管道将运行int(num_interence_steps * strength)步，例如在下面的例子中0.5 * 2.0 = 1步。

from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch

pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")

init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))

prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"

image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]