由斯坦福AI先锋李飞飞领导的空间智能初创公司World Labs,分享了其生成模型的最新进展。该模型能够从单一图像和文本提示中创建持久的、可导航的3D世界。
公司的愿景是构建能够感知、生成并与3D物理世界互动的“大型世界模型”,超越当今主要以2D和语言为主的AI。
通过一个名为Marble的新测试版预览,用户可以创建并导出这些环境,使该技术在与谷歌DeepMind等主要研究实验室的竞争中占据一席之地。与公司之前的成果相比,该模型生成的世界更大、风格更为多样化,几何结构更为清晰。
Marble的工作原理
World Labs尚未披露其模型的具体架构,而介绍它的博客文章中几乎没有详细信息。用户只需提供原始图像,模型就会基于此创建一个虚拟世界。
然而,一个重要的线索在于其导出格式。用户可以将生成的世界导出为高斯斑点以用于其他项目。这表明该模型使用了一种现代技术——高斯斑点渲染,用于实时渲染照片级真实场景。
高斯斑点渲染的核心是一种光栅化技术。它不是用传统的多边形或三角形构建场景,而是使用数百万个3D高斯,每个高斯由其位置、规模、颜色和透明度定义。该过程通常从使用一种称为运动结构(SfM)的方法开始,从一系列2D图像生成3D点云。然后将每个点转换为高斯。最后,这些高斯通过类似于神经网络训练的过程进行训练,不断调整、分裂或修剪,以完美匹配原始图像。结果是一个可以快速渲染的高度详细的场景表示。
然而,Marble的独特之处在于它可以从单一图像中“想象”出画面之外的部分。我获得了该模型的早期访问权限,并在几张图片上进行了测试。例如,我给它一张现代办公空间的图片,当它创建世界时,还渲染了原始图像之外的桌子和会议室(你可以在这里看到虚拟世界)。这就是World Labs承诺的“世界模型”元素。我猜测该模型从图像中创建对象的潜在表示,然后根据其训练的数据分布扩展周围环境,进而生成整个3D场景。
应用与限制
World Labs当前的模型旨在创建完整的3D环境,而不是专注于孤立的对象。虽然不太适合生成单个角色或动物,但它非常适合构建虚拟场景和舞台。早期用户已经在探索其在创建游戏资产和VR电影制作环境方面的潜力,有些人报告称,曾经需要数周的任务现在可以在几分钟内完成。
然而,使用该模型并非易事。要充分利用该模型,你需要了解它所训练的数据类型。例如,该模型在生成上面图像中的办公室时表现得相当不错。但当我给它下面的幻想酒馆插图时,生成的场景却显得粗糙且有问题(你可以在这里看到),这可能是因为插图风格与其训练的数据类型不一致(Marble在给定3D静态图像时表现更好,可能是因为它在大量3D渲染上进行了训练)。此外,越是偏离原始图像,物体的细节就越少。
除了创意应用之外,这项技术对训练具身AI代理具有重要意义。通过创建真实且多样化的现实世界数字孪生,开发人员可以在模拟中训练和验证机器人和自动驾驶汽车模型。Nvidia已经在使用神经重建和基于高斯的渲染,将现实世界驾驶的传感器数据转化为高保真模拟,用于自动驾驶车辆开发。这些模拟可以在像CARLA开源AV模拟器这样的平台上用于测试新场景并生成罕见极端情况的数据。
什么是世界模型?
World Labs的方法与谷歌DeepMind等竞争对手形成对比。World Labs提供了一种工具,可以生成一个明确的、可导出的3D资产(高斯斑点文件),然后可以导入到其他应用程序中,如游戏引擎或模拟器。
DeepMind的Genie 3则是一个端到端的生成世界模型。它使用自回归架构,根据文本提示和用户操作实时生成和模拟交互环境。在这个模型中,环境一致性是一种涌现属性,而不是预先存在的3D结构的结果。整个世界及其交互存在于一个动态模型中,而不会产生可以导出的静态3D资产。(Genie 3目前尚未公开使用。)
这种区别突显了AI社区中关于“世界模型”是什么的更广泛讨论。该术语目前用于描述两种不同的概念。第一种,由World Labs的Marble和DeepMind的Genie 3等系统代表,指的是能够创建和模拟外部环境的生成模型。这些模型旨在生成AI代理可以训练或用户可以进行交互体验的设置。第二种世界模型的概念是AI代理用来解释周围世界的内部预测系统。这更接近于人类和动物的运作方式;我们不是在像素级别预测未来,而是依赖抽象表示来预见可能的结果。像Meta的联合嵌入预测架构(JEPA)这样的模型就是为此目的而设计的。它们学习支配世界中交互的潜在特征,使代理能够在不需要完整、照片级真实模拟的情况下进行有效预测和采取行动。我猜测,具身AI的未来可能依赖于这两种方法的结合:像Marble这样的生成模型将创建广阔而复杂的虚拟世界,以训练配备有高效、预测性世界模型的代理,如V-JEPA。