Stability AI推出升级版SVD 1.1，提升AI视频生成效果

2024年02月07日由 daydream 发表 1428 0

Stability AI公司因其不断增长的内容创作和编码开源AI模型阵列而闻名，该公司宣布对其图像到视频的潜在扩散模型Stable Video Diffusion（SVD）进行了升级。

微信截图_20240207100641

升级后的模型被称为SVD 1.1，是SVD 1.0的精细调整版本，优化了短AI视频的生成，具有更好的运动和更高的一致性。

在宣布升级的帖子中，Stability AI的首席技术官Tom Mason证实，新模型可供公众使用，并可通过Hugging Face下载。

他还指出，该模型将作为 Stability 订阅会员服务的一部分提供，个人用户和企业用户有不同的等级，包括免费、每月 20 美元及以上。如果用户希望将新的 SVD 1.1 部署用于商业目的，则需要加入会员。

对 Stability AI 的 SVD 1.1 有何期待？

早在 2023 年 11 月，Stability 就为 AI 视频推出了两种模式： SVD 和 SVD-XT。前者是基础模型，以静止图像为调节帧，从中生成最多 14 帧的四秒视频。而后者是微调版本，工作方式相同，但最多可生成 25 个帧。

现在，经过对 SVD-XT 的微调，Stability 推出了 SVD 1.1。该公司称，这种模式也能生成 25 帧的四秒视频，但分辨率为 1024×576，上下文帧大小相同。

更重要的是，与原始型号相比，这次升级有望提供更一致的视频输出。

例如，在许多情况下，SVD 和 SVD-XT 无法提供逼真的效果，生成的视频没有运动或摄像机平移速度很慢，也无法生成用户期望的人脸和人物。预计 SVD 1.1 将消除所有这些问题，并承诺在输出中实现更好的动态效果。

"微调（针对 SVD 1.1）在 6FPS 和运动桶 Id 127 的固定条件下进行，以提高输出的一致性，而无需调整超参数。这些条件仍可调整，并未删除。与 SVD 1.0 相比，固定调节设置之外的性能可能会有所不同。"在新模型的Hugging Face页面上指出。

实际人工智能视频仍有待观察

虽然 Stability 声称 SVD 1.1 的性能有所提高，但实际效果如何还有待观察。该模型的Hugging Face页面指出，该模式仅用于研究目的，同时也提醒大家，一些原有的问题可能还会出现。

值得注意的是，除了Hugging Face之外，Stable Video Diffusion模型还可以通过Stability AI开发人员平台上的API使用。这为开发人员提供了一种将高级视频生成无缝集成到其产品中的简便方法。

“…我们已经发布了Stable Video Diffusion API，该API可以生成MP4格式的4秒视频，包括25个生成的帧和剩余的插值帧，帧速率为24fps。我们支持运动强度控制以及多种布局和分辨率，包括1024×576、768×768和576×1024。”Mason在他的帖子中指出。

去年，Stability AI通过频繁发布模型推动了生成式AI的发展。2024年似乎也在走同样的道路。该公司成立于2019年，已筹集到大量资金，包括2022年宣布的1.01亿美元。然而，它并不是唯一在这个领域运营的公司。Runway和Pika等竞争对手的产品也获得了关注，尤其是它们的面向客户的网络平台，不仅可以生成视频，还提供易于定制和升级的选项。

最近，竞争对手Runway在其平台上推出了Multi Motion Brush功能，允许用户向AI视频的特定部分添加运动。另一家AI视频生成公司Pika允许用户修改视频中的特定区域，比如将牛脸换成鸭脸。然而，这两个平台仍然不通过API提供其模型，这使得开发人员无法将它们集成到各自的应用程序中。

文章来源：https://venturebeat.com/ai/stability-ai-launches-svd-1-1-a-diffusion-model-for-more-consistent-ai-videos/

标签：

Stability AI 视频 Runway

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Synthesia推出AI视频助手：可将文本转为专业视频

下一篇苹果发布开源AI模型MGIE：指令驱动的图像编辑新突破

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术