840000VAE 模型使用说明

CCSBRIDGE

于 2025-04-09 13:34:41 发布

阅读量722

点赞数 11

分类专栏： Stable Diffusion ComfyUI 文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/weixin_47420447/article/details/147091760

版权

Stable Diffusion ComfyUI 专栏收录该内容

14 篇文章

订阅专栏

📘 VAE 模型使用说明卡

名称：vae-ft-mse-840000-ema-pruned.safetensors
模型类型：改进型 SD 自动编码器（VAE）
作者：StabilityAI
发布时间：官方版本，持续维护中
推荐存放路径：

/ComfyUI/models/vae/vae-ft-mse-840000-ema-pruned.safetensors

🎯 模型用途

该模型是原始 Stable Diffusion 所用 VAE 的升级版本，旨在增强图像重建质量，特别是人脸区域的还原度和平滑性。

适用于：

Stable Diffusion 1.5 及其衍生模型（如 CyberRealistic、AbyssOrangeMix 等）
ComfyUI / Automatic1111 / SD.Next 等支持外部 VAE 加载的界面

🔧 模型下载命令（使用 HuggingFace 镜像）

wget -O vae-ft-mse-840000-ema-pruned.safetensors "https://hf-mirror.com/stabilityai/sd-vae-ft-mse-original/resolve/main/vae-ft-mse-840000-ema-pruned.safetensors?download=true"

🧠 模型背景与训练策略

名称	训练步数	损失函数	特点
`ft-MSE`	840,001	`MSE + 0.1 * LPIPS`	训练重点放在结构还原，输出图像更平滑
来源数据	LAION-Aesthetics + LAION-Humans（SFW）

技术说明：

从 ft-EMA 模型继续训练，使用 EMA（Exponential Moving Average）权重，更加稳定。
仅Decoder部分进行了微调，与原模型完全兼容。
更适合人像与细节还原（比原始VAE在 PSNR / SSIM / PSIM 上表现更佳）。

🧪 评估数据（参考）

📊 在 COCO2017（256x256）测试集表现：

模型	rFID	PSNR↑	SSIM↑	PSIM↓
原始 VAE	4.99	23.4	0.69	1.01
`ft-MSE`	4.70	24.5	0.71	0.92

📊 在 LAION-Aesthetics（256x256）子集表现：

模型	rFID	PSNR↑	SSIM↑	PSIM↓
原始 VAE	2.61	26.0	0.81	0.75
`ft-MSE`	1.88	27.3	0.83	0.65

✅ 推荐使用场景

使用 CyberRealistic、Anything、ChilloutMix、Realistic Vision 等注重真实感的模型时，提高细节还原度
脸部图像不糊、细节不失真的追求者
图生图、控制图流程中对 精度与还原 要求较高时

📝 使用方法（以 ComfyUI 为例）

下载并放入目录：

/ComfyUI/models/vae/vae-ft-mse-840000-ema-pruned.safetensors

在加载 SD 模型后，使用 VAE Loader 节点加载该 VAE。
可配合提示词、LoRA 调优，观察对图像细节、色彩、面部还原的影响。

🚫 注意事项

此模型不会生成图像，只作用于潜空间 ↔ 图像空间的编码/解码（影响画面质量、色彩、细节还原）。
若图像颜色异常或有过度平滑感，可尝试切换为 vae-ft-ema 或默认 VAE。