Lightricks 有限公司凭借其最新开源视频生成模型 LTX Video-13B 的发布,向人工智能领域的巨头 OpenAI、谷歌有限责任公司(Google LLC)以及其他公司发起了挑战。
据说,新版本是Lightricks公司原有LTXV模型的一次重大升级,增加了参数数量并增强了其功能,从而“大幅”提升了视频输出质量,同时还保持了令人赞叹的速度。作为Lightricks公司旗舰工具LTX Studio的一部分,Lightricks表示,即使在消费级硬件上运行,LTXV-13B也能够生成具有“惊人细节、连贯性和可控性”的视频。
最初的LTXV模型于11月首次亮相,作为当时最先进的视频生成模型之一,它受到了广泛关注。凭借其轻量级架构,这个拥有20亿参数的模型能够在配备单个消费级图形处理器的笔记本电脑和个人计算机上高效运行,并能快速生成5秒钟画面流畅、动作连贯的精美视频。
然而,真正让LTXV脱颖而出的是其高度的可及性。在一个大多数先进模型通常都是被锁定在付费使用的应用程序编程接口之后的“黑匣子”的世界里,LTXV犹如一股清流。这个开源模型、其代码库以及权重都免费提供给人工智能社区,为研究人员和爱好者提供了一个难得的机会,让他们能够了解其工作原理并对其进行改进。
Lightricks将LTXV开源,是因为它希望鼓励人工智能行业的进一步创新,而实现这一目标的唯一途径就是让每个人都能接触到最新的技术进展,这样任何人都可以在此基础上进行开发。这是这家初创公司经过深思熟虑的举措,它希望通过将其基础模型交到尽可能多的开发者手中,吸引更多人使用其付费平台。
对于LTXV-13B,该公司采取了同样的方法,在Hugging Face和GitHub上提供下载,任何年收入低于1000万美元的组织都可以免费获得其使用许可。这意味着用户可以自由地以任何方式对其进行修改、微调、添加新功能,并将其集成到第三方应用程序中。
精细控制
用户还将能够体验到一些引人注目的新功能,这些功能旨在在不影响模型效率的情况下提升视频质量。
其中一项重大更新是新的多尺度渲染功能,创作者可以通过分步的方式,逐步为视频添加更多细节和色彩。想象一下,一位艺术家先画一幅粗略的铅笔草图,然后拿起画笔添加更多复杂的细节和色彩。创作者可以采用同样的“分层”方法,逐步增强视频中的各个元素,这与专业电影制作人使用的分阶段场景构建技术类似。
这样做有两个好处。一方面,Lightricks表示,这能够生成质量更高、视觉细节更精细的视频。而且速度也快得多,使得该模型渲染高分辨率视频的速度比参数数量相近的竞争模型快30倍。
Lightricks还透露了对现有功能的改进,包括相机运动控制、关键帧编辑、多镜头序列以及角色和场景级别的动作调整。此外,此次发布整合了开源社区的多项贡献,这些贡献提高了模型的场景连贯性和动作一致性,同时保持了其效率。
例如,Lightricks表示,它与研究人员合作,将更先进的参考视频生成和视频到视频的编辑工具集成到了LTXV-13B中。并且还有新的上采样控制功能,有助于消除背景噪声的影响。
开源社区也帮助该公司对LTXV-13B进行了优化,以确保即使它比原始模型庞大得多,仍能在消费级GPU上高效运行。这得益于UEfficient Q8内核,它有助于在计算资源有限的设备上提升模型的性能。因此,开发者可以在任何机器上本地运行该模型。
LTXV-13B还因其是一个“合乎道德”的模型而引人注目,因为它是在盖蒂图片控股公司(Getty Images Holdings Inc.)和舒特斯托克公司(Shutterstock Inc.)提供的经过筛选的视觉资产数据集上进行训练的。其经过授权的高质量训练数据确保了该模型的输出在视觉上具有吸引力,并且可以安全地用于商业用途,不存在任何版权侵权问题的风险。
现在可以通过LTX Studio使用LTXV-13B,这是一个高级平台,创作者可以使用基于文本的提示来勾勒出他们的想法,并逐步完善这些想法以生成专业视频。借助LTX Studio,创作者可以使用高级编辑工具,能够改变相机角度、优化单个角色的外观、编辑背景中的建筑物和物体、调整环境等等。
联合创始人兼首席执行官泽夫·法布曼(Zeev Farbman)表示,对于任何对人工智能视频生成感兴趣的人来说,此次发布都是一个“关键时刻”。
他承诺:“我们的用户现在可以更连贯、更高质量且更精准地控制内容创作。这个新版本的LTX视频可以在消费级硬件上运行,同时保留了我们所有产品的独特之处——速度、创意和易用性。”