模型:
lambdalabs/dreambooth-avatar
Dreambooth在Avatar艺术风格上对稳定扩散(v1.5.1)进行了微调,由 Lambda Labs 完成。
该文本到图像稳定扩散模型是使用dreambooth训练的。输入文本提示,生成您自己的Avatar风格图像!
要在本地运行模型:
pip install accelerate torchvision transformers>=4.21.0 ftfy tensorboard modelcards
import torch
from diffusers import StableDiffusionPipeline
from torch import autocast
pipe = StableDiffusionPipeline.from_pretrained("lambdalabs/dreambooth-avatar", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "Yoda, avatarart style"
scale = 7.5
n_samples = 4
with autocast("cuda"):
images = pipe(n_samples*[prompt], guidance_scale=scale).images
for idx, im in enumerate(images):
im.save(f"{idx:06}.png")
基本模型是稳定扩散v1.5,并使用Dreambooth训练了60个输入图像,大小为512x512,显示了Avatar角色图像。该模型正在学习将Avatar图像与标记为"avatarart style"的风格相关联。训练过程中使用了类别为"Person"的前置保存,以避免训练对该类别的表示造成影响。训练在 Lambda GPU Cloud 的2xA6000 GPU上进行了700个步骤的批量大小为4(大约几个小时,成本约为4美元)。
作者:Eole Cervenka