改进的自编码器

利用

这些权重旨在与 🧨 diffusers library 搭配使用。如果您要使用原始 CompVis Stable Diffusion codebase 的模型，请使用 come here 。

如何与🧨扩散器一起使用

您可以将这个经过微调的 VAE 解码器集成到现有的扩散器工作流中，只需要在 StableDiffusionPipeline 中添加一个 vae 参数。

from diffusers.models import AutoencoderKL
from diffusers import StableDiffusionPipeline

model = "CompVis/stable-diffusion-v1-4"
vae = AutoencoderKL.from_pretrained("stabilityai/sd-vae-ft-mse")
pipe = StableDiffusionPipeline.from_pretrained(model, vae=vae)

解码器微调

我们发布了两个 kl-f8 自编码器版本，从原始的 kl-f8 autoencoder 中微调而来，采用 LAION-Aesthetics 和 LAION-Humans 的1:1比例。LAION-Humans 是一个包含仅含人类 SFW 图像的未发布子集。目的是在稳定的扩散训练集上进行微调（自编码器最初是在 OpenImages 上训练的），同时通过增加人类图像的数据集来改善面部的重建。第一个是 ft-EMA ，从原始检查点中恢复，训练了313198步，并使用 EMA 权重。它使用与原始检查点相同的损失配置（L1 + LPIPS）。第二个是 ft-MSE ，从 ft-EMA 中恢复，使用 EMA 权重，并使用不同的损失进行了另外280k步训练，更加注重 MSE 重建（MSE + 0.1 * LPIPS）。它产生了更加“平滑”的输出。两个版本的批量大小为192（16 A100，每个GPU批量大小为12）。为了保持与现有模型的兼容性，只对解码器部分进行了微调；这些检查点可以用作现有自编码器的替代品。

原始 kl-f8 VAE vs f8-ft-EMA vs f8-ft-MSE

评估

COCO 2017（256x256，验证集，5000张图像）

Model	train steps	rFID	PSNR	SSIM	PSIM	Link	Comments
original	246803	4.99	23.4 +/- 3.8	0.69 +/- 0.14	1.01 +/- 0.28	1236321	as used in SD
ft-EMA	560001	4.42	23.8 +/- 3.9	0.69 +/- 0.13	0.96 +/- 0.27	1237321	slightly better overall, with EMA
ft-MSE	840001	4.70	24.5 +/- 3.7	0.71 +/- 0.13	0.92 +/- 0.27	1238321	resumed with EMA from ft-EMA, emphasis on MSE (rec. loss = MSE + 0.1 * LPIPS), smoother outputs

LAION-Aesthetics 5+（256x256，子集，10000张图像）

Model	train steps	rFID	PSNR	SSIM	PSIM	Link	Comments
original	246803	2.61	26.0 +/- 4.4	0.81 +/- 0.12	0.75 +/- 0.36	1236321	as used in SD
ft-EMA	560001	1.77	26.7 +/- 4.8	0.82 +/- 0.12	0.67 +/- 0.34	1237321	slightly better overall, with EMA
ft-MSE	840001	1.88	27.3 +/- 4.7	0.83 +/- 0.11	0.65 +/- 0.34	1238321	resumed with EMA from ft-EMA, emphasis on MSE (rec. loss = MSE + 0.1 * LPIPS), smoother outputs

可视化

对 COCO2017 验证数据集中的 256x256 图像的重建可视化。

256x256：ft-EMA（左），ft-MSE（中），原始（右）

作者:

Stability AI

数据集大小:

638.35 MB