Stability AI推出Stable Cascade：高效AI图像生成新架构

2024年02月20日由 daydream 发表 408 0

微信截图_20240220112654

Stability AI宣布推出Stable Cascade，这是一种新的文本到图像架构，专注于卓越的质量、灵活性和硬件效率。Stable Cascade建立在由不同神经网络组成的三阶段管道上，在压缩潜在空间的同时实现了最先进的结果，从而能够在消费级GPU上进行训练和微调。这一突破将使比以往任何时候都更多的用户能够参与AI图像生成、增强和实验。

微信截图_20240220112716

Stable Cascade之所以能够具备这些功能，关键在于其压缩潜在空间的能力——这是AI解析的图像抽象表示。该模型由三个阶段组成：潜在生成器（阶段C），将用户输入转换为紧凑的24x24潜在；其次是潜在解码器（阶段A和B），负责压缩图像，通过高度压缩的潜在空间实现无与伦比的输出质量。

微信截图_20240220112728

Stable Cascade的模块化设计还允许对每个阶段进行有针对性的单独微调。通过将文本条件生成与高分辨率解码过程解耦，Stability AI 的训练成本比类似规模的模型降低了 16 倍。这使得该技术不仅更实惠，而且更适应更广泛的应用场景。对于大多数用途，鼓励用户将精力集中在阶段C上，利用提供的训练脚本、ControlNet和LoRA训练能力来探索这一前沿架构。

微信截图_20240220112741

Stable Cascade为阶段C推出了两个模型（1B和3.6B参数），为阶段B推出了两个模型（700M和1.5B参数），其中阶段C的3.6B版本建议寻求最高质量输出的用户使用。尽管采用了模块化方法，Stable Cascade仍然将用于推理的VRAM要求保持得相当低，约为20gb，从而进一步实现了高保真图像生成。

微信截图_20240220112753

除了标准的文本到图像生成，Stable Cascade在生成图像变化和促进图像到图像的转换方面也表现出色。这些功能使用户能够探索他们创造力的广阔领域，从生成单个图像的多个解释到根据新提示转换现有图像，这说明了模型的通用性和适应性。

该公司已在GitHub上发布了所有必要的训练、微调、ControlNet和LoRA代码，以支持定制。他们还为诸如图像修复/外插、Canny边缘生成和2倍超分辨率等专用应用程序提供了脚本。目前，该模型仅供非商业用途使用，并受到严格指导方针的约束，待进一步制定政策。

文章来源：https://www.maginative.com/article/stability-ai-announces-stable-cascade/

标签：

Stability AI AI 图像

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Meta发布新型视频模型V-JEPA，推动AI理解世界

下一篇 Stability AI发布第三代图像生成模型Stable Diffusion 3

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来