移动设备上的AI革命：SnapFusion引领新时代

2023年06月26日由 Alex 发表 667392 0

扩散模型。如果你一直密切关注人工智能领域的进展，那么你一定听说过这个术语。它们是促成生成式人工智能方法革命的关键。现在我们已经有了能够在几秒钟内使用文本提示生成逼真图像的模型。它们彻底改变了内容生成、图像编辑、超分辨率、视频合成和3D资源生成。

虽然这种卓越的性能并非廉价。扩散模型在计算要求方面非常苛刻。这意味着你需要使用高端的图形处理器才能充分发挥它们的作用。是的，也有尝试使其在本地计算机上运行的方法；但即使如此，你还是需要一台高端计算机。另一方面，使用云服务提供商可能是一种替代方案，但在这种情况下，你可能会面临隐私风险。

此外，我们还需要考虑到移动设备的问题。对于大多数人来说，他们在手机上花费的时间比在计算机上多。如果你想在移动设备上使用扩散模型，那么祝你好运，因为这对于设备本身有限的硬件性能来说要求过高。

扩散模型是下一个重大突破，但在将其应用于实际应用之前，我们需要解决其复杂性。有过多次尝试致力于加速移动设备上的推理过程，但它们并没有实现无缝的用户体验或对生成质量进行定量评估。直到现在，这还是一个故事，因为我们在这个领域有了一位新成员，它的名字叫做SnapFusion。

SnapFusion是第一个在移动设备上以不到2秒的时间生成图像的文本到图像扩散模型。它优化了UNet架构，并减少了去噪步骤的数量，以提高推理速度。此外，SnapFusion还采用了一种不断发展的训练框架，引入了数据蒸馏流程，并在蒸馏步骤中增强了学习目标。

在对SnapFusion的结构进行任何更改之前，首先研究了SD-v1.5的架构冗余性，以获得高效的神经网络。然而，由于高昂的训练成本，将传统的修剪或架构搜索技术应用于SD是具有挑战性的。架构的任何更改都可能导致性能下降，需要利用大量的计算资源进行广泛的微调。因此，他们必须开发出能够在逐步提高效果的同时保持预训练UNet模型性能的替代解决方案。

为了增加推理速度，SnapFusion专注于优化UNet架构，这是条件扩散模型中的瓶颈。现有的工作主要关注训练后的优化，但SnapFusion识别出架构冗余并提出了一种不断发展的训练框架，其在显著提高速度的同时优于原始的Stable Diffusion模型。它还引入了一个数据蒸馏流程来压缩和加速图像解码器。

SnapFusion包括一个稳健的训练阶段，其中通过随机前向传播以一定的概率执行每个交叉注意力和ResNet块。这种稳健的训练增强确保网络对架构排列的容忍性，从而能够准确评估每个块并实现稳定的架构演化。

通过使用合成数据训练通过通道减少得到的图像解码器，SnapFusion通过蒸馏流程实现了高效的图像解码器。这个压缩的解码器参数显著减少，比SD-v1.5的解码器更快。蒸馏过程涉及生成两个图像，一个来自高效解码器，另一个来自SD-v1.5，通过使用文本提示从SD-v1.5的UNet获取潜在表示。

所提出的逐步蒸馏方法包括一个常规蒸馏损失目标，其目的是最小化学生UNet预测和教师UNet嘈杂潜在表示之间的差距。此外，引入了一种CFG感知蒸馏损失目标来提高CLIP分数。CFG引导的预测在教师和学生模型中都被使用，其中CFG尺度是随机采样的，在训练过程中提供了FID和CLIP分数之间的权衡。

得益于改进的逐步蒸馏和网络架构发展，SnapFusion可以在移动设备上以不到2秒的时间从文本提示中生成512×512像素的图像。生成的图像展现出与最先进的Stable Diffusion模型相似的质量。

来源：https://www.marktechpost.com/2023/06/24/the-artist-pal-in-your-pocket-snapfusion-is-an-ai-approach-that-brings-the-power-of-diffusion-models-to-mobile-devices/

标签：

行业人工智能 SnapFusion 移动设备

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇麻省理工学院支柱人工智能集体宣布首批种子资助获得者

下一篇 Meta AI和三星推出两种新的人工智能方法：Prodigy和Resetting

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体