模型:

facebook/DiT-XL-2-256

英文

可扩展的Transformer扩散模型(DiT)

摘要

我们训练了潜在的扩散模型,并将常用的U-Net骨干替换为在潜在补丁上操作的Transformer。通过以Gflops为单位量度的前向传递复杂性,我们分析了我们的扩散Transformer(DiTs)的可扩展性。我们发现,通过增加Transformer的深度/宽度或增加输入标记的数量,具有更高Gflops的DiTs始终具有较低的FID。除了良好的可扩展性特性外,我们的DiT-XL/2模型在类别条件下优于所有先前的扩散模型,在类别条件下的ImageNet 512×512和256×256基准上实现了最先进的FID(2.27)。