Dreambooth风格：Avatar

Dreambooth在Avatar艺术风格上对稳定扩散（v1.5.1）进行了微调，由 Lambda Labs 完成。

关于

该文本到图像稳定扩散模型是使用dreambooth训练的。输入文本提示，生成您自己的Avatar风格图像！

用法

要在本地运行模型：

pip install accelerate torchvision transformers>=4.21.0 ftfy tensorboard modelcards

import torch
from diffusers import StableDiffusionPipeline
from torch import autocast

pipe = StableDiffusionPipeline.from_pretrained("lambdalabs/dreambooth-avatar", torch_dtype=torch.float16)  
pipe = pipe.to("cuda")

prompt = "Yoda, avatarart style"
scale = 7.5
n_samples = 4

with autocast("cuda"):
  images = pipe(n_samples*[prompt], guidance_scale=scale).images

for idx, im in enumerate(images):
  im.save(f"{idx:06}.png")

模型描述

基本模型是稳定扩散v1.5，并使用Dreambooth训练了60个输入图像，大小为512x512，显示了Avatar角色图像。该模型正在学习将Avatar图像与标记为"avatarart style"的风格相关联。训练过程中使用了类别为"Person"的前置保存，以避免训练对该类别的表示造成影响。训练在 Lambda GPU Cloud 的2xA6000 GPU上进行了700个步骤的批量大小为4（大约几个小时，成本约为4美元）。

作者：Eole Cervenka

作者:

Lambda

数据集大小:

4.81 GB