Stability AI推出Stable Cascade:高效AI图像生成新架构

2024年02月20日 由 daydream 发表 144 0

微信截图_20240220112654


Stability AI宣布推出Stable Cascade,这是一种新的文本到图像架构,专注于卓越的质量、灵活性和硬件效率。Stable Cascade建立在由不同神经网络组成的三阶段管道上,在压缩潜在空间的同时实现了最先进的结果,从而能够在消费级GPU上进行训练和微调。这一突破将使比以往任何时候都更多的用户能够参与AI图像生成、增强和实验。


微信截图_20240220112716


Stable Cascade之所以能够具备这些功能,关键在于其压缩潜在空间的能力——这是AI解析的图像抽象表示。该模型由三个阶段组成:潜在生成器(阶段C),将用户输入转换为紧凑的24x24潜在;其次是潜在解码器(阶段A和B),负责压缩图像,通过高度压缩的潜在空间实现无与伦比的输出质量。


微信截图_20240220112728


Stable Cascade的模块化设计还允许对每个阶段进行有针对性的单独微调。通过将文本条件生成与高分辨率解码过程解耦,Stability AI 的训练成本比类似规模的模型降低了 16 倍。这使得该技术不仅更实惠,而且更适应更广泛的应用场景。对于大多数用途,鼓励用户将精力集中在阶段C上,利用提供的训练脚本、ControlNet和LoRA训练能力来探索这一前沿架构。


微信截图_20240220112741


Stable Cascade为阶段C推出了两个模型(1B和3.6B参数),为阶段B推出了两个模型(700M和1.5B参数),其中阶段C的3.6B版本建议寻求最高质量输出的用户使用。尽管采用了模块化方法,Stable Cascade仍然将用于推理的VRAM要求保持得相当低,约为20gb,从而进一步实现了高保真图像生成。


微信截图_20240220112753


除了标准的文本到图像生成,Stable Cascade在生成图像变化和促进图像到图像的转换方面也表现出色。这些功能使用户能够探索他们创造力的广阔领域,从生成单个图像的多个解释到根据新提示转换现有图像,这说明了模型的通用性和适应性。


该公司已在GitHub上发布了所有必要的训练、微调、ControlNet和LoRA代码,以支持定制。他们还为诸如图像修复/外插、Canny边缘生成和2倍超分辨率等专用应用程序提供了脚本。目前,该模型仅供非商业用途使用,并受到严格指导方针的约束,待进一步制定政策。

文章来源:https://www.maginative.com/article/stability-ai-announces-stable-cascade/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消