Lightricks开源的AI视频模型LTX-2挑战Sora和Veo

2026年01月12日 由 alex 发表 1079 0

Lightricks-LTX-2-Boat-Teaser


以色列公司Lightricks已将其拥有190亿参数的模型LTX-2开源。该系统通过文本描述生成同步的音视频内容,并声称比竞争对手更快。


根据技术报告,该模型可根据单一文本提示生成长达20秒的视频,并同步立体声音频。这包括对口型语音、背景音效、拟音效果以及与每个场景匹配的音乐。Lightricks表示,LTX-2的完整版可达到4K分辨率,最高可达50帧每秒。


研究人员认为,现有的视听生成方法存在根本缺陷。许多系统是顺序工作的——先生成视频,然后添加音频,反之亦然。这些解耦的管道无法捕捉两种模态的真实联合分布。虽然口型同步主要依赖音频,但声学环境则受视觉环境影响。只有统一的模型才能处理这些双向依赖关系。


为什么非对称架构对音视频生成如此重要

LTX-2运行在一个非对称双流变压器上,总参数为190亿。视频流拥有140亿参数——远远超过音频流的50亿个容量。研究人员表示,这种分裂反映了两种模态信息密度的不同。


两流都分别使用不同的变分自编码器来处理各自的模态。这种解耦支持了特定模态的位置编码:用于视频的时空结构的三维旋转位置嵌入(RoPE),以及用于音频纯时间维度的一维嵌入。双向交叉注意力层连接了这两条流,精确地将视觉事件与相应的声音连接起来,比如物体撞击地面。


屏幕截图2026-01-12104738


在文本理解方面,LTX-2 使用 Gemma3-12B 作为多语言编码器。系统不仅查询语言模型的最后一层,而是调用所有解码层并将其信息合并。模型还使用“思考标记”——输入序列中的额外占位符,以便在生成前有更多空间处理复杂提示。


速度提升使LTX-2领先于竞争对手

根据基准测试,LTX-2在推理速度上表现出显著优势。在Nvidia H100 GPU上,该型号每步需要1.22秒,121帧,720p分辨率。同类的Wan2.2-14B仅生成无音频视频,耗时为22.30秒。据Lightricks统计,这使得LTX-2的速度快了18倍。


最大视频时长20秒也超过了竞争对手:谷歌的Veo 3可达12秒,OpenAI的Sora 2达到16秒,Character.AI的开源模型Ovi可达10秒。在人类偏好研究中,LTX-2“显著优于”开源替代品如Ovi,并取得与Veo 3和Sora 2等专有模型相当的效果。


不过,研究人员也承认存在若干局限性。质量因语言而异——语音合成对于代表性不足的语言或方言来说可能不那么精确。在多说话场景中,模型偶尔会将语音内容分配给错误的角色。超过20秒的序列可能会出现时间漂移和同步下降的问题。


开源发布挑战,封闭式API方法

Lightricks解释其开源该模型的决定,是对当前市场的批判。Lightricks创始人Zeev Farbman在发布视频中说:“我就是看不出封闭API怎么能实现这一点,因为他们谈到了当前视频生成模式的承诺。”行业陷入了一个空白:一方面,你可以创造出令人印象深刻的成果,但另一方面,你远远达不到专业人士所需的控制水平。


公司也明确持道德立场。“人工智能可以增强人类的创造力和智能。我担心的是,别人会拥有我的增强体,“法布曼继续说道。目标是在自己的硬件上、按照自己的条件运行AI,并与广泛的创作者社区一起做出伦理决策,而不是把他们外包给有自己利益的少数群体。


除了模型权重外,该版本还包括精简版、多个LoRA适配器以及支持多GPU的模块化训练框架。该模型针对英伟达的RTX生态系统进行了优化,运行于RTX 5090等消费级GPU以及企业级系统。模型权重和代码可在GitHub和Hugging Face上获取,公司内容平台免费注册后还有演示。

文章来源:https://the-decoder.com/lightricks-open-sources-ai-video-model-ltx-2-challenges-sora-and-veo/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消