LTX-2是首个开源的端到端音视频联合生成模型,输入文本或图片即可同步生成带语音、音效和背景音乐的4K/50fps、最长20秒视频。模型采用非对称双流架构,推理速度比同类快18倍,支持在线Demo免费体验,适合AI视频生成、多模态内容创作等开发者与研究使用。
Tags:
一句话总结:输入一段文字或图片 → 直接生成带同步语音、环境音效、背景音乐的 4K/50fps 视频,LTX-2 用「非对称双流架构」让 AI 视频真正「有声有色」。
过去一年,文生视频模型卷出了新高度:从 Sora 到 Wan、从 HunyuanVideo 到 LTX-Video,画面质量越来越逼真。但不知道大家有没有发现一个关键缺憾:
生成的视频全是「默片」,没有语音、没有音效、没有环境声 想加音频?得额外用 TTS+ 音效库+ 后期合成,流程割裂、口型难对齐 多模态模型往往计算量大、推理慢,难以实用化
视频是视觉的,但体验是视听一体的——这个根本需求,正是当前视频生成模型的瓶颈。
今天介绍的 LTX-2,正是为破解这一困局而来。这篇由Lightricks出品、2026 年 1 月开源的工作,首次实现端到端音视频联合生成:一个模型、一次推理,同步输出画面+语音+环境音效,且推理速度比同类模型快 18 倍。模型权重约 19B,推荐 24GB+ 显存;在线 Demo 支持免费体验,建议先试玩再部署~
🔗 相关链接
论文:https://arxiv.org/pdf/2601.03233 代码:https://github.com/Lightricks/LTX-2 试用:https://console.ltx.video/playground 模型:https://huggingface.co/Lightricks/LTX-2.3 ComfyUI:https://github.com/Lightricks/ComfyUI-LTXVideo
📚 论文介绍
研究背景
当前视频生成方法在音频维度存在明显短板:
LTX-2 的核心洞察:
音视频本质是同一物理事件的两种表征——唇动对应语音、场景对应环境声。与其分开生成再对齐,不如联合建模,让模型自己学习跨模态依赖。
方法概述
LTX-2 的整体框架可概括为「一个核心架构 + 三个关键技术」:
┌─────────────────────────────────────┐
│ LTX-2 核心架构 │
├─────────────────────────────────────┤
│ ① 非对称双流 DiT 骨干 │
│ • 视频流:14B 参数,3D RoPE 编码 │
│ • 音频流:5B 参数,1D RoPE 编码 │
│ • 双向跨模态注意力 + 跨模态 AdaLN │
│ │
│ ② 深度文本理解管线 │
│ • Gemma-3-12B 多语言编码器 │
│ • 多层特征提取 + 思考令牌机制 │
│ │
│ ③ 模态感知分类器自由引导 (modality-CFG)│
│ • 独立控制文本/跨模态引导强度 │
│ • 提升音视频语义对齐与可控性 │
└─────────────────────────────────────┘
创新点一:非对称双流架构
解决「视频复杂、音频轻量」的资源分配问题:
视频流:14B 参数,采用 3D Rotary Positional Embedding (RoPE),同时编码空间 (x,y) 与时间 (t) 信息,精准建模运动与构图 音频流:5B 参数,采用 1D 时间 RoPE,专注建模语音节奏、音色与环境声时序 双向跨模态注意力:视频查询可关注音频关键帧(如唇动时刻),音频查询可关注视频关键区域(如说话人位置),实现亚帧级同步 跨模态 AdaLN:用另一模态的隐藏状态调制当前模态的层归一化参数,增强跨模态特征融合
关键优势:相比对称双流或单流融合,非对称设计在保持视频质量的同时大幅降低计算开销
创新点二:深度文本理解 + 思考令牌
解决「复杂提示词理解难、语音生成不准」的问题:
多层特征提取:不只用 Gemma-3 最后一层输出,而是聚合所有解码层的中间表示,捕获从音素到语义的多层次信息 思考令牌机制:在文本序列中插入可学习的「思考令牌」,通过双向注意力聚合全局上下文,再投影到扩散模型的条件空间 双流独立文本连接器:视频流和音频流各有独立的文本条件模块,分别优化视觉描述与语音生成的语义对齐
🎯 效果:支持多语言提示词,生成的语音口型准确、语调自然,复杂场景描述(如「雨夜中两人对话+远处雷声」)也能精准还原
创新点三:模态感知分类器自由引导
解决「音视频引导强度难平衡」的问题:
# 标准 CFG 扩展为双引导项:
guided_output = model(x,t,m)
+ s_t * [model(x,t,m) - model(x,∅,m)] # 文本引导
+ s_m * [model(x,t,m) - model(x,t,∅)] # 跨模态引导
s_t控制文本提示的遵循强度s_m控制音视频跨模态对齐强度实践中:视频流设 s_t=3, s_m=3,音频流设s_t=7, s_m=3,优先保证语音与文本一致
✨ 价值:用户可独立调节「画面像不像提示词」和「声音配不配画面」,实现精细可控的生成
🔹 实验结果:质量与效率双突破
论文从三个维度系统评估 LTX-2:
| 1.22 秒/步 vs 22.3 秒/步 |
定性效果亮点
口型同步:人物说话时唇形与语音精准匹配,支持多语言/口音 环境声建模:雨声、风声、脚步声等 Foley 音效随画面动态变化 长时序一致性:支持最长 20 秒连续生成,角色动作/语音/场景过渡自然 多控制模式:支持文生音视频、图生音视频、音频驱动视频、关键帧插值等
结论
LTX-2模型的推出,标志着文本到音频视频生成技术迈入了一个新的阶段。其高效的非对称双流架构、跨模态注意力机制以及多语言支持等创新点,为未来的多模态生成模型提供了宝贵的经验。过去我们讨论「视频像不像真实世界」,现在 LTX-2 开始回答能不能直接用于短视频/广告/教育内容生产。这种以终端创作为导向的设计思路,或许才是技术落地的关键。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论