Runway发布首个世界模型，并在最新视频模型中添加原生音频

2025年12月12日由佚名发表 583 0

随着越来越多的AI图像和视频生成公司加入市场，Runway也不例外。初创公司和大型科技公司的行列，推出了其首个世界模型。该模型被称为GWM-1，通过逐帧预测来创建一个理解物理和世界随时间变化行为的模拟，公司表示。

世界模型是一个AI系统，它通过学习世界运作的内部模拟，来进行推理、计划和行动，而无需在现实生活中对每种可能场景进行训练。

Runway本月早些时候推出了其Gen 4.5视频模型，在Video Arena排行榜上超越了谷歌和OpenAI。公司表示，其GWM-1世界模型比谷歌的Genie-3和其他竞争对手更“通用”。该公司将其定位为一个可以在机器人和生命科学等不同领域中创建模拟以训练代理的模型。

“为了构建一个世界模型，我们首先需要构建一个非常出色的视频模型。我们相信，构建世界模型的正确路径是教模型直接预测像素，这是实现通用模拟的最佳方式。在足够的规模和正确的数据下，你可以构建一个对世界运作有足够理解的模型，”公司CTO Anastasis Germanidis在直播中表示。

Runway发布了新世界模型的特定版本或变体，称为GWM-Worlds、GWM-Robotics和GWM-Avatars。

GWM-Worlds是一个应用程序，允许用户创建交互式项目。用户可以通过提示或图像参考设置场景，当你探索空间时，模型会生成一个理解几何、物理和光照的世界。公司提到模拟以24帧每秒和720p分辨率运行。Runway表示，虽然Worlds对游戏有用，但它也非常适合教导代理如何在物理世界中导航和行为。

通过GWM-Robotics，公司旨在使用合成数据，丰富新的参数，如变化的天气条件或障碍物。Runway表示，这种方法还可以揭示机器人在不同场景中何时以及如何可能违反政策和指令。

Runway还在GWM-Avatars下构建逼真的化身，以模拟人类行为。像D-ID、Synthesia、Soul Machines，甚至谷歌这样的公司都在致力于创建看起来真实的人类化身，并在通信和培训等领域工作。

公司指出，技术上Worlds、Robotics和Avatars是独立的模型，但最终计划将所有这些合并为一个模型。

除了发布新的世界模型，公司还在更新其基础本月早些时候发布的Gen 4.5模型。新的更新为模型带来了原生音频和长篇、多镜头生成能力。公司表示，使用此模型，用户可以生成具有角色一致性、原生对话、背景音频和从各个角度拍摄的复杂镜头的一分钟视频。公司表示，你还可以编辑现有音频并添加对话。此外，你可以编辑任何长度的多镜头视频。

Gen 4.5更新使Runway更接近竞争对手Kling的全能视频套件，也在本月早些时候推出，特别是在原生音频和多镜头叙事方面。它还表明视频生成模型正在从原型转向生产就绪工具。Runway更新的Gen 4.5模型对所有付费计划用户开放。

公司表示，将通过SDK提供GWM-Robotics。它补充说，正在与多家机器人公司和企业积极对话，以使用GWM-Robotics和GWM-Avatars。

文章来源：https://techcrunch.com/2025/12/11/runway-releases-its-first-world-model-adds-native-audio-to-latest-video-model/

标签：

机器人

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌推出“Disco”：由Gemini驱动的工具，将浏览器标签页转化为网页应用

下一篇迪士尼与OpenAI签署协议，允许Sora生成包含其角色的AI视频

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体