添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
LTX-2是第一个基于 DiT 的开源音视频基础模型,它将现代视频生成的所有核心功能集成在一个模型中:同步音频和视频、高保真度、多种性能模式、可用于生产的输出、API 访问和开放访问。目前已经冲到了HuggingFace热门榜Top2!
相关链接
论文:https://videos.ltx.io/LTX-2/grants/LTX_2_Technical_Report_compressed.pdf 代码:https://github.com/Lightricks/LTX-2?tab=readme-ov-file 主页:https://ltx.io/ 试用:https://app.ltx.studio/ltx-2-playground/i2v
介绍
近期的文本到视频扩散模型能够生成引人入胜的视频序列,但它们却无法提供音频所能提供的语义、情感和氛围线索。
论文提出了一个开源的基础模型LTX-2,能够以统一的方式生成高质量、时间同步的视听内容。LTX-2 由一个非对称双流 Transformer构成,包含一个 14 亿参数的视频流和一个 5 亿参数的音频流,并通过双向音视频交叉注意力层耦合,该注意力层包含时间位置嵌入和用于共享时间步长的跨模态AdaLN。这种架构能够高效地训练和推理统一的视听模型,同时将更多资源分配给视频生成而非音频生成。
采用多语言文本编码器以更广泛地理解提示信息,并引入一种模态感知的无分类器引导(modality-CFG)机制,以改善视听对齐和可控性。除了生成语音之外,LTX-2 还能生成丰富、连贯的音轨,完美契合每个场景的角色、环境、风格和情感,并包含自然的背景音和拟音元素。
该模型实现了最先进的视听质量,并迅速超越了开源系统,同时以远低于专有模型的计算成本和推理时间,实现了与之媲美的结果。所有模型权重和代码均已公开。
方法概述
LTX-2架构概述。 原始视频和音频信号通过因果VAE编码为特定模态的潜在标记,而文本则通过精细化的嵌入流水线进行处理。双流扩散变换器联合对音频和视频潜在标记进行去噪,并结合双向视听交叉注意力机制和文本处理,生成同步的视听输出。
提出的架构。 (a) 双流骨干网并行处理视频和音频潜在标记,并通过双向交叉注意力层交换信息。(b) 交叉注意力模块的详细视图,该模块利用时间一维RoPE进行位置对齐,并利用跨模态AdaLN进行时间步长处理。
文本理解流程概述。文本提示由 Gemma3 编码,并通过特征提取器和文本连接器进行细化,以生成特定模态的 DiT。
实验结果
AV 交叉注意力图的可视化。这些图是注意力头和模型层之间的平均结果;V2A 和 A2V 图分别对应于推理步骤的前 1/3 和后 1/3。音频波形上的红色垂直线标记了显示帧的时间戳。
该可视化展示了模型在空间上跟踪移动车辆、动态地将注意力从一个说话人转移到另一个说话人,然后再同时转移到两者,以及在近距离语音中聚焦于唇部区域的能力。
结论
LTX-2是一个开源的文本转音频+视频 (T2AV) 基础模型,它能够从文本中联合生成同步的视频和音频。LTX-2 通过扩展一个预训练的 13B 视频扩散变换器,并结合一个轻量级的 3B 音频流,利用双向交叉注意力机制、一维时间 RoPE 和跨模态 AdaLN 条件化,实现了高效的多模态生成,且无需重复视觉骨干网络。通过模态感知的无分类器引导和渐进式联合训练,该模型能够生成连贯、富有表现力的视听内容,并具有自然的语音、环境音效和逼真的拟音效果。
实验表明,LTX-2 为开源 T2AV 生成树立了新的标杆——在实现同类模型中最快的速度的同时,也达到了最先进的视听质量。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论