AI I024: 开源音视频联合生成模型LTX-2：19B参数实现4K/50fps视频与同步音频输出

2026年3月9日星期一

开源音视频联合生成模型LTX-2：19B参数实现4K/50fps视频与同步音频输出

LTX-2是首个开源的端到端音视频联合生成模型，输入文本或图片即可同步生成带语音、音效和背景音乐的4K/50fps、最长20秒视频。模型采用非对称双流架构，推理速度比同类快18倍，支持在线Demo免费体验，适合AI视频生成、多模态内容创作等开发者与研究使用。

Tags:

AI视频生成

音视频同步

开源模型

多模态AI

LTX-2模型

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

添加微信号：AIGC_Tech，公众号小助手会拉你进群！扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

一句话总结：输入一段文字或图片 → 直接生成带同步语音、环境音效、背景音乐的 4K/50fps 视频，LTX-2 用「非对称双流架构」让 AI 视频真正「有声有色」。

过去一年，文生视频模型卷出了新高度：从 Sora 到 Wan、从 HunyuanVideo 到 LTX-Video，画面质量越来越逼真。但不知道大家有没有发现一个关键缺憾：

生成的视频全是「默片」，没有语音、没有音效、没有环境声
想加音频？得额外用 TTS+ 音效库+ 后期合成，流程割裂、口型难对齐
多模态模型往往计算量大、推理慢，难以实用化

视频是视觉的，但体验是视听一体的——这个根本需求，正是当前视频生成模型的瓶颈。

今天介绍的 LTX-2，正是为破解这一困局而来。这篇由Lightricks出品、2026 年 1 月开源的工作，首次实现端到端音视频联合生成：一个模型、一次推理，同步输出画面+语音+环境音效，且推理速度比同类模型快 18 倍。模型权重约 19B，推荐 24GB+ 显存；在线 Demo 支持免费体验，建议先试玩再部署～

unsetunset🔗 相关链接unsetunset

论文：https://arxiv.org/pdf/2601.03233
代码：https://github.com/Lightricks/LTX-2
试用：https://console.ltx.video/playground
模型：https://huggingface.co/Lightricks/LTX-2.3
ComfyUI：https://github.com/Lightricks/ComfyUI-LTXVideo

unsetunset📚 论文介绍unsetunset

研究背景

当前视频生成方法在音频维度存在明显短板：

方法类型	代表工作	核心局限
纯视频生成	LTX-Video, Wan 2.1	输出「默片」，需额外后处理加音频
串行音视频	V2A + T2V 流水线	模态割裂，口型/环境声难对齐，误差累积
闭源多模态	Veo 3, Sora 2	效果强但不开源，难以二次开发

LTX-2 的核心洞察：

音视频本质是同一物理事件的两种表征——唇动对应语音、场景对应环境声。与其分开生成再对齐，不如联合建模，让模型自己学习跨模态依赖。

方法概述

LTX-2 的整体框架可概括为「一个核心架构 + 三个关键技术」：

┌─────────────────────────────────────┐
│  LTX-2 核心架构                      │
├─────────────────────────────────────┤
│ ① 非对称双流 DiT 骨干               │
│    • 视频流：14B 参数，3D RoPE 编码  │
│    • 音频流：5B 参数，1D RoPE 编码   │
│    • 双向跨模态注意力 + 跨模态 AdaLN │
│                                     │
│ ② 深度文本理解管线                  │
│    • Gemma-3-12B 多语言编码器        │
│    • 多层特征提取 + 思考令牌机制     │
│                                     │
│ ③ 模态感知分类器自由引导 (modality-CFG)│
│    • 独立控制文本/跨模态引导强度     │
│    • 提升音视频语义对齐与可控性      │
└─────────────────────────────────────┘

创新点一：非对称双流架构

解决「视频复杂、音频轻量」的资源分配问题：

视频流：14B 参数，采用 3D Rotary Positional Embedding (RoPE)，同时编码空间 (x,y) 与时间 (t) 信息，精准建模运动与构图
音频流：5B 参数，采用 1D 时间 RoPE，专注建模语音节奏、音色与环境声时序
双向跨模态注意力：视频查询可关注音频关键帧（如唇动时刻），音频查询可关注视频关键区域（如说话人位置），实现亚帧级同步
跨模态 AdaLN：用另一模态的隐藏状态调制当前模态的层归一化参数，增强跨模态特征融合

关键优势：相比对称双流或单流融合，非对称设计在保持视频质量的同时大幅降低计算开销

创新点二：深度文本理解 + 思考令牌

解决「复杂提示词理解难、语音生成不准」的问题：

多层特征提取：不只用 Gemma-3 最后一层输出，而是聚合所有解码层的中间表示，捕获从音素到语义的多层次信息
思考令牌机制：在文本序列中插入可学习的「思考令牌」，通过双向注意力聚合全局上下文，再投影到扩散模型的条件空间
双流独立文本连接器：视频流和音频流各有独立的文本条件模块，分别优化视觉描述与语音生成的语义对齐

🎯 效果：支持多语言提示词，生成的语音口型准确、语调自然，复杂场景描述（如「雨夜中两人对话+远处雷声」）也能精准还原

创新点三：模态感知分类器自由引导

解决「音视频引导强度难平衡」的问题：

# 标准 CFG 扩展为双引导项：
guided_output = model(x,t,m) 
              + s_t * [model(x,t,m) - model(x,∅,m)]   # 文本引导
              + s_m * [model(x,t,m) - model(x,t,∅)]   # 跨模态引导

s_t 控制文本提示的遵循强度
s_m 控制音视频跨模态对齐强度
实践中：视频流设 s_t=3, s_m=3，音频流设 s_t=7, s_m=3，优先保证语音与文本一致

✨ 价值：用户可独立调节「画面像不像提示词」和「声音配不配画面」，实现精细可控的生成

🔹 实验结果：质量与效率双突破

论文从三个维度系统评估 LTX-2：

评估维度	对比方法	LTX-2 优势
音视频质量（人工评测）	Ovi, Wan 2.1	同步性/自然度/提示遵循三项均 SOTA，媲美 Veo 3/Sora 2
纯视频基准（Artificial Analysis）	Wan 2.2-14B, HunyuanVideo	文生视频第 4 名、图生视频第 3 名，开源模型中领先
推理效率（H100, 720p/121 帧）	Wan 2.2-14B	1.22 秒/步 vs 22.3 秒/步，速度快 18 倍

定性效果亮点

口型同步：人物说话时唇形与语音精准匹配，支持多语言/口音
环境声建模：雨声、风声、脚步声等 Foley 音效随画面动态变化
长时序一致性：支持最长 20 秒连续生成，角色动作/语音/场景过渡自然
多控制模式：支持文生音视频、图生音视频、音频驱动视频、关键帧插值等

unsetunset结论unsetunset

LTX-2模型的推出，标志着文本到音频视频生成技术迈入了一个新的阶段。其高效的非对称双流架构、跨模态注意力机制以及多语言支持等创新点，为未来的多模态生成模型提供了宝贵的经验。过去我们讨论「视频像不像真实世界」，现在 LTX-2 开始回答能不能直接用于短视频/广告/教育内容生产。这种以终端创作为导向的设计思路，或许才是技术落地的关键。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2026年3月9日星期一

开源音视频联合生成模型LTX-2：19B参数实现4K/50fps视频与同步音频输出

Tags:

AI视频生成

音视频同步

开源模型

多模态AI

LTX-2模型

unsetunset🔗 相关链接unsetunset

unsetunset📚 论文介绍unsetunset

研究背景

方法概述

创新点一：非对称双流架构

创新点二：深度文本理解 + 思考令牌

创新点三：模态感知分类器自由引导

🔹 实验结果：质量与效率双突破

定性效果亮点

unsetunset结论unsetunset

没有评论:

发表评论

开源AI视频生成聚合包Wan2GP v11。52，最低6GB显存支持文生视频/图生视频

标签

2026年3月9日星期一

开源音视频联合生成模型LTX-2：19B参数实现4K/50fps视频与同步音频输出

Tags: AI视频生成 音视频同步 开源模型 多模态AI LTX-2模型

unsetunset🔗 相关链接unsetunset

unsetunset📚 论文介绍unsetunset

研究背景

方法概述

创新点一：非对称双流架构

创新点二：深度文本理解 + 思考令牌

创新点三：模态感知分类器自由引导

🔹 实验结果：质量与效率双突破

定性效果亮点

unsetunset结论unsetunset

没有评论:

发表评论

开源AI视频生成聚合包Wan2GP v11。52，最低6GB显存支持文生视频/图生视频

Tags:

AI视频生成

音视频同步

开源模型

多模态AI

LTX-2模型