Lightricks推出的开源AI视频模型LTX-2,向Sora与Veo发起挑战

2026-02-11 17:47:22来源: 网络作者:admin

以色列企业Lightricks已将旗下具备190亿参数的模型LTX-2开放源代码。此系统能够依据文本描述,生成同步的音频与视频内容,并且宣称其速度相较于竞争对手更具优势。

根据技术报告,该模型可根据单一文本提示生成长达20秒的视频,并同步立体声音频。这包括对口型语音、背景音效、拟音效果以及与每个场景匹配的音乐。Lightricks表示,LTX-2的完整版可达到4K分辨率,最高可达50帧每秒。

研究人员指出,当前的视听生成技术存在着基础性的不足。不少系统采用的是分步处理的模式——要么先制作视频再配上音频,要么反过来操作。这类相互分离的处理流程,难以准确把握两种模态之间真实的联合分布规律。比如口型同步虽然主要由音频决定,但声音所处的声学环境又会受到视觉场景的影响。显然,只有构建起统一的模型,才能够妥善应对这种双向的依赖关系。

为什么非对称架构对音视频生成如此重要

LTX-2运行在一个非对称双流变压器上,总参数为190亿。视频流拥有140亿参数——远远超过音频流的50亿个容量。研究人员表示,这种分裂反映了两种模态信息密度的不同。

两条流各自采用不同的变分自编码器处理对应的模态。这种解耦方式为特定模态的位置编码提供了支持:针对视频时空结构的三维旋转位置嵌入(RoPE),以及针对音频纯时间维度的一维嵌入。双向交叉注意力层将这两条流连接起来,能够精准地把视觉事件和对应的声音关联起来,例如物体撞击地面的场景。

在文本理解层面,LTX-2 采用 Gemma3-12B 作为多语言编码器。该系统并非仅对语言模型的最后一层进行查询,而是调用所有解码层并将各层信息加以整合。此外,模型引入了“思考标记”——也就是输入序列里额外设置的占位符,目的是在生成内容前预留出更多空间来处理复杂提示。

速度提升使LTX-2领先于竞争对手

根据基准测试结果,LTX-2在推理速度方面展现出明显的优势。在Nvidia H100 GPU环境下,该型号完成每一步需要1.22秒,可处理121帧、720p分辨率的内容。而同类的Wan2.2-14B仅能生成无音频的视频,且耗时长达22.30秒。经Lightricks统计,LTX-2的速度由此达到了Wan2.2-14B的18倍。

其最大视频时长为20秒,这一数据超越了竞争对手:谷歌的Veo 3最长可达12秒,OpenAI的Sora 2为16秒,而Character.AI的开源模型Ovi仅能达到10秒。在针对人类偏好的研究中,LTX-2的表现“显著优于”Ovi等开源替代模型,并且取得了与Veo 3、Sora 2等专有模型不相上下的效果。

不过,研究人员也承认存在若干局限性。质量因语言而异——语音合成对于代表性不足的语言或方言来说可能不那么精确。在多说话场景中,模型偶尔会将语音内容分配给错误的角色。超过20秒的序列可能会出现时间漂移和同步下降的问题。

开源发布挑战,封闭式API方法

Lightricks对开源该模型的决定给出的解释,是对当下市场状况的一种批判。其创始人Zeev Farbman在发布视频里表示:“我实在无法理解封闭API要如何做到这一点,毕竟他们还在谈论当前视频生成模式所具备的潜力。”如今行业存在这样一个困境:一方面,人们能够产出令人惊叹的成果;但另一方面,这些成果在控制精度上又远远满足不了专业人士的需求。

公司同样明确表明其道德立场。“人工智能能够提升人类的创造力与智能水平。但我所担忧的是,他人可能会掌控属于我的增强能力,”法布曼接着阐述。其目标在于依托自身硬件、遵循自身原则来运行人工智能,并且联合广大创作者群体共同制定伦理决策,而非将这些决策外包给那些有自身利益考量的少数群体。

这个版本除了模型权重外,还包含精简版本、多款LoRA适配器,以及能够支持多GPU的模块化训练框架。该模型针对英伟达的RTX生态系统做了优化,可在RTX 5090这类消费级GPU和企业级系统上运行。模型权重与代码可以在GitHub和Hugging Face平台上获取,在公司内部平台免费注册后还能查看演示。

免责声明:文章图片应用自网络,如有侵权请联系删除

热门推荐

更多
最新 热门