AI新突破：单步扩散模型实现快速图像生成

2024年03月25日由 daydream 发表 1077 0

在当前的人工智能时代，计算机可以通过扩散模型生成自己的“艺术”，即通过迭代的方式在嘈杂的初始状态下添加结构，直到出现清晰的图像或视频。

微信截图_20240325104235

扩散模型突然成为了每个人关注的焦点：只需输入几个词，就能立即体验到现实与幻想交汇处的多巴胺激增的梦幻景象。然而，在幕后，这需要一个复杂且耗时的过程，需要算法进行多次迭代才能完善图像。

麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员介绍了一种新框架，将传统扩散模型的多步骤过程简化为单一步骤，解决了之前的局限性。这是通过一种师生模型来实现的：教会一个新的计算机模型模仿更复杂、更原始的生成图像模型的行为。

这种方法被称为分布匹配蒸馏（DMD），它保留了生成图像的质量，并允许更快的生成速度。

“我们的工作是一种新颖的方法，可以将当前的扩散模型（如Stable Diffusion和DALLE-3）加速30倍。”麻省理工学院电子工程和计算机科学博士生、CSAIL研究员、DMD框架的主要研究者田伟寅说。

“这一进步不仅显著减少了计算时间，而且保持了生成视觉内容的质量，甚至可能超过其质量。从理论上讲，这种方法将生成对抗网络（GANs）的原理与扩散模型的原理相结合，实现了一步生成视觉内容——这与当前扩散模型所需的数百步迭代细化形成鲜明对比。它可能成为一种在速度和质量上都表现出色的新生成建模方法。”

这种单步扩散模型可以增强设计工具，使内容创建更快，并可能支持药物发现和3D建模等领域的进步，在这些领域中，速度和效率至关重要。

DMD巧妙地包含两个组件。首先，它使用回归损失，该损失将映射锚定以确保图像空间的粗略组织，从而使训练更加稳定。

接下来，它使用分布匹配损失，确保使用学生模型生成给定图像的概率与其在现实世界中出现的频率相对应。为此，它利用两个扩散模型作为指导，帮助系统理解真实图像和生成图像之间的差异，并使训练成为可能实现的一步生成器速度更快。

该系统通过训练新网络来最小化其生成图像与传统扩散模型使用的训练数据集之间的分布差异，从而实现更快的生成。田伟寅说：“我们的关键见解是使用两个扩散模型来近似指导新模型改进的梯度。”

“通过这种方式，我们将原始更复杂模型的知识提炼到更简单、更快的模型中，同时绕过了GANs中臭名昭著的不稳定性和模式崩溃问题。”

田伟寅及其同事使用了预训练网络作为新的学生模型，简化了该过程。通过复制和微调原始模型的参数，该团队实现了新模型的快速训练收敛，该模型能够以相同的架构基础生成高质量图像。田伟寅补充说：“这使得能够基于原始架构与其他系统优化相结合，进一步加速创建过程。”

在针对常规方法进行广泛基准测试时，DMD表现出了一致的性能。在ImageNet上基于特定类别生成图像的流行基准测试中，DMD是第一个能够生成与原始更复杂模型几乎相同的图像的一步扩散技术，其超接近的Fréchet初始距离（FID）得分仅为0.3，这是令人印象深刻的，因为FID主要用于评估生成图像的质量和多样性。

此外，DMD在工业规模的文本到图像生成方面表现出色，并实现了最先进的单步生成性能。在处理更棘手的文本到图像应用时，仍然存在轻微的质量差距，这表明未来还有一定的改进空间。

此外，DMD生成图像的性能与蒸馏过程中使用的教师模型的能力密切相关。在当前的形式中，使用Stable Diffusion v1.5作为教师模型，学生继承了诸如渲染文本和小脸的详细描绘等局限性，这表明更先进的教师模型可以进一步增强DMD生成的图像。

麻省理工学院电子工程与计算机科学教授、CSAIL 首席研究员 Fredo Durand 是这篇论文的第一作者。"我们非常高兴终于实现了单步图像生成，这将大大降低计算成本并加快这一过程。"

“终于有一篇论文成功地将扩散模型的多样性和高视觉质量与GANs的实时性能相结合。”加州大学伯克利分校电气工程与计算机科学教授亚历克西·埃夫罗斯（Alexei Efros）表示，他并未参与这项研究。“我预计这项工作将为高质量实时视觉编辑开辟出绝佳的可能性。”

文章来源：https://techxplore.com/news/2024-03-ai-generates-high-quality-images.html#google_vignette

标签：

人工智能模型图像

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 NVIDIA发布LATTE3D：文本秒变3D形状

下一篇谷歌推出突破性通用视频理解模型VideoPrism

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术