2026年3月9日星期一

开源音视频联合生成模型LTX-2:19B参数实现4K/50fps视频与同步音频输出

LTX-2是首个开源的端到端音视频联合生成模型,输入文本或图片即可同步生成带语音、音效和背景音乐的4K/50fps、最长20秒视频。模型采用非对称双流架构,推理速度比同类快18倍,支持在线Demo免费体验,适合AI视频生成、多模态内容创作等开发者与研究使用。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!
图片

一句话总结:输入一段文字或图片 → 直接生成带同步语音、环境音效、背景音乐的 4K/50fps 视频,LTX-2 用「非对称双流架构」让 AI 视频真正「有声有色」。

图片

过去一年,文生视频模型卷出了新高度:从 Sora 到 Wan、从 HunyuanVideo 到 LTX-Video,画面质量越来越逼真。但不知道大家有没有发现一个关键缺憾:

  • 生成的视频全是「默片」,没有语音、没有音效、没有环境声
  • 想加音频?得额外用 TTS+ 音效库+ 后期合成,流程割裂、口型难对齐
  • 多模态模型往往计算量大、推理慢,难以实用化

视频是视觉的,但体验是视听一体的——这个根本需求,正是当前视频生成模型的瓶颈。

今天介绍的 LTX-2,正是为破解这一困局而来。这篇由Lightricks出品、2026 年 1 月开源的工作,首次实现端到端音视频联合生成:一个模型、一次推理,同步输出画面+语音+环境音效,且推理速度比同类模型快 18 倍。模型权重约 19B,推荐 24GB+ 显存;在线 Demo 支持免费体验,建议先试玩再部署~

unsetunset🔗 相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2601.03233
  • 代码:https://github.com/Lightricks/LTX-2
  • 试用:https://console.ltx.video/playground
  • 模型:https://huggingface.co/Lightricks/LTX-2.3
  • ComfyUI:https://github.com/Lightricks/ComfyUI-LTXVideo

unsetunset📚 论文介绍unsetunset

研究背景

当前视频生成方法在音频维度存在明显短板:

方法类型
代表工作
核心局限
纯视频生成
LTX-Video, Wan 2.1
输出「默片」,需额外后处理加音频
串行音视频
V2A + T2V 流水线
模态割裂,口型/环境声难对齐,误差累积
闭源多模态
Veo 3, Sora 2
效果强但不开源,难以二次开发

LTX-2 的核心洞察

音视频本质是同一物理事件的两种表征——唇动对应语音、场景对应环境声。与其分开生成再对齐,不如联合建模,让模型自己学习跨模态依赖。


方法概述

图片
图片

LTX-2 的整体框架可概括为「一个核心架构 + 三个关键技术」:

┌─────────────────────────────────────┐
│  LTX-2 核心架构                      │
├─────────────────────────────────────┤
│ ① 非对称双流 DiT 骨干               │
│    • 视频流:14B 参数,3D RoPE 编码  │
│    • 音频流:5B 参数,1D RoPE 编码   │
│    • 双向跨模态注意力 + 跨模态 AdaLN │
│                                     │
│ ② 深度文本理解管线                  │
│    • Gemma-3-12B 多语言编码器        │
│    • 多层特征提取 + 思考令牌机制     │
│                                     │
│ ③ 模态感知分类器自由引导 (modality-CFG)│
│    • 独立控制文本/跨模态引导强度     │
│    • 提升音视频语义对齐与可控性      │
└─────────────────────────────────────┘

创新点一:非对称双流架构

解决「视频复杂、音频轻量」的资源分配问题:

  • 视频流:14B 参数,采用 3D Rotary Positional Embedding (RoPE),同时编码空间 (x,y) 与时间 (t) 信息,精准建模运动与构图
  • 音频流:5B 参数,采用 1D 时间 RoPE,专注建模语音节奏、音色与环境声时序
  • 双向跨模态注意力:视频查询可关注音频关键帧(如唇动时刻),音频查询可关注视频关键区域(如说话人位置),实现亚帧级同步
  • 跨模态 AdaLN:用另一模态的隐藏状态调制当前模态的层归一化参数,增强跨模态特征融合

关键优势:相比对称双流或单流融合,非对称设计在保持视频质量的同时大幅降低计算开销

创新点二:深度文本理解 + 思考令牌

解决「复杂提示词理解难、语音生成不准」的问题:

  • 多层特征提取:不只用 Gemma-3 最后一层输出,而是聚合所有解码层的中间表示,捕获从音素到语义的多层次信息
  • 思考令牌机制:在文本序列中插入可学习的「思考令牌」,通过双向注意力聚合全局上下文,再投影到扩散模型的条件空间
  • 双流独立文本连接器:视频流和音频流各有独立的文本条件模块,分别优化视觉描述与语音生成的语义对齐

🎯 效果:支持多语言提示词,生成的语音口型准确、语调自然,复杂场景描述(如「雨夜中两人对话+远处雷声」)也能精准还原

创新点三:模态感知分类器自由引导

解决「音视频引导强度难平衡」的问题:

# 标准 CFG 扩展为双引导项:
guided_output = model(x,t,m) 
              + s_t * [model(x,t,m) - model(x,∅,m)]   # 文本引导
              + s_m * [model(x,t,m) - model(x,t,∅)]   # 跨模态引导
  • s_t 控制文本提示的遵循强度
  • s_m 控制音视频跨模态对齐强度
  • 实践中:视频流设 s_t=3, s_m=3,音频流设 s_t=7, s_m=3,优先保证语音与文本一致

✨ 价值:用户可独立调节「画面像不像提示词」和「声音配不配画面」,实现精细可控的生成


🔹 实验结果:质量与效率双突破

论文从三个维度系统评估 LTX-2:

评估维度
对比方法
LTX-2 优势
音视频质量(人工评测)
Ovi, Wan 2.1
同步性/自然度/提示遵循三项均 SOTA,媲美 Veo 3/Sora 2
纯视频基准(Artificial Analysis)
Wan 2.2-14B, HunyuanVideo
文生视频第 4 名、图生视频第 3 名,开源模型中领先
推理效率(H100, 720p/121 帧)
Wan 2.2-14B
1.22 秒/步 vs 22.3 秒/步
,速度快 18 倍

定性效果亮点

  • 口型同步:人物说话时唇形与语音精准匹配,支持多语言/口音
  • 环境声建模:雨声、风声、脚步声等 Foley 音效随画面动态变化
  • 长时序一致性:支持最长 20 秒连续生成,角色动作/语音/场景过渡自然
  • 多控制模式:支持文生音视频、图生音视频、音频驱动视频、关键帧插值等

unsetunset结论unsetunset

LTX-2模型的推出,标志着文本到音频视频生成技术迈入了一个新的阶段。其高效的非对称双流架构、跨模态注意力机制以及多语言支持等创新点,为未来的多模态生成模型提供了宝贵的经验。过去我们讨论「视频像不像真实世界」,现在 LTX-2 开始回答能不能直接用于短视频/广告/教育内容生产。这种以终端创作为导向的设计思路,或许才是技术落地的关键。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

tttLRM:首个线性复杂度自回归3D重建大模型,支持64视图流式输入,推理速度提升百倍

宾夕法尼亚大学与Adobe提出的tttLRM模型,首次将测试时训练引入3D重建领域,通过LaCT架构实现线性计算复杂度。该模型支持多达64张多视角图像的流式输入,在保持高质量重建细节的同时,大幅提升推理速度,适用于需要快速、精准建模的复杂场景与对象级3D重建任务。 Tags: ...