2026年1月12日星期一

硬刚谷歌Veo3!快手Klear统一多任务音视频联合生成:创新单塔架构,口型语音完美同步

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Jun Wang、Chunyu Qiang等

解读:AI生成未来
图片

论文链接https://arxiv.org/abs/2601.04151

亮点直击

  • Klear 框架:提出了一个统一的音频-视频生成框架,能够同时处理联合生成(Joint Generation)和单模态生成任务。
  • 单塔架构 (Single-Tower) :采用了统一的 DiT (Diffusion Transformer) 模块和 Omni-Full Attention 机制,实现了音频和视频的紧密对齐。
  • 渐进式多任务训练:引入了从随机模态掩码到联合优化的训练策略,以及多阶段课程学习,增强了模型的鲁棒性和对物理世界的理解。
  • 大规模稠密标注数据集:构建了首个带有稠密描述(Dense Captions)的大规模音频-视频数据集,并引入了自动化数据构建管道。
图 1 Klear,这是一个统一的音视频生成框架,它可以在联合和单模态设置中提供高保真度、强大的语义和时间对齐以及可靠的指令遵循,并具有强大的 OOD 泛化能力。 跨任务(T2AV/TI2AV/TI2V/T2V/T2A),它的性能可与开源模型中的 Veo-3 相媲美。
图 1 Klear,这是一个统一的音视频生成框架,它可以在联合和单模态设置中提供高保真度、强大的语义和时间对齐以及可靠的指令遵循,并具有强大的 OOD 泛化能力。 跨任务(T2AV/TI2AV/TI2V/T2V/T2A),它的性能可与开源模型中的 Veo-3 相媲美。

解决的问题

  • 视听不同步:现有非商业模型常出现声音与画面(如嘴型)不同步的问题。
  • 单模态退化:在进行联合生成时,往往牺牲了单个模态(仅视频或仅音频)的质量。
  • 数据匮乏:缺乏高质量、经过严格对齐且带有详细描述的音频-视频配对数据。
  • 指令跟随能力弱:现有模型在处理复杂指令时灵活性不足。

提出的方案

  • 架构设计:放弃传统的级联(Cascade)或双塔(Dual Tower)设计,采用全统一的单塔 Transformer 结构,让音频和视频 Token 在所有层级进行交互。
  • 数据工程:开发了一套自动化管道,包括视频/音频质量过滤、场景分割、人声/非人声分类以及多模型协作的稠密标注(使用 Whisper, SenseVoice, Qwen2.5-Omni 等工具)。

应用的技术

  • **Flow Matching (流匹配)**:作为去噪目标,用于训练生成模型。
  • Omni-Full Attention:一种全注意机制,允许音频和视频 Token 在序列中完全可见,促进深度融合。
  • 3D VAE & Audio VAE:使用 3D 变分自编码器压缩视频(3Hz),使用 Audio-VAE 压缩音频(43Hz)。
  • Multimodal RoPE:多模态旋转位置编码,用于处理不同模态的位置信息。

达到的效果

  • SOTA 级性能:在 T2AV(文本生音视频)、TI2AV(图生音视频)等多个任务上,性能大幅优于现有方法(如 Universe-1, Ovi)。
  • 媲美商业模型:在开源模型中,其表现可与 Veo 3 等闭源商业模型相媲美。
  • 高质量对齐:实现了高保真的唇形同步(Lip-sync)和与其动作匹配的音效生成(如乐器演奏、唱歌)。

Klear

预备知识

问题定义本工作的目标是在给定各种先验条件的情况下,通过单个模型实现音频和视频的生成。将去噪网络表示为 ,文本条件表示为 。令  和  分别表示在时间步  时的音频和视频隐变量(latent variables)。这里, 表示纯高斯噪声的最终时间步。在推理过程中, 递归地执行去噪操作,从  到 ,以产生最终的生成结果 ,如下所示:

条件流匹配本工作采用流匹配(Flow Matching)作为去噪目标。模型需要学习将纯噪声  变换为潜在数据分布  的速度场。在实践中,我们执行线性插值  来构建时间步  处的分布。给定条件 ,模型  被训练以预测目标速度 

其中 

潜在编码该模型接受四种输入:视频、视频相关文本、音频相关文本和音频。其中,视频相关文本代表视频描述(video caption),音频相关文本代表音频描述(audio caption)和语音文本。视频由来自 CogVideoX 的 3D 因果视觉编码器进行编码。我们使用 Qwen3-8B Embedding 作为音频和视频描述的编码器。

具有全注意力的单塔架构

图 2 Klear 概述。 该模型接受四个输入:视频、视频相关文本、音频相关文本和音频。 每个输入均由各自的编码器单独编码,然后馈入 MM-DiT。 MM-DiT模块输出视频和音频的隐变量,然后分别解码为视频和音频。
图 2 Klear 概述。 该模型接受四个输入:视频、视频相关文本、音频相关文本和音频。 每个输入均由各自的编码器单独编码,然后馈入 MM-DiT。 MM-DiT模块输出视频和音频的隐变量,然后分别解码为视频和音频。

单塔 DiT (Single Tower DiT)为了确保彻底的音频-视频融合,我们采用了单塔架构。如图 2 所示,遵循 Stable Diffusion 3 的设计,我们采用了多模态扩散 Transformer(MM-DiT),将所有模态的序列作为输入并执行全注意力(Full Attention)机制。具体而言,有四种输入:视频、视频相关文本、音频相关文本和音频。每种类型的输入分别由各自的编码器编码为隐变量,然后输入到 MM-DiT 中。MM-DiT 模块在两个流中输出视频和音频的隐变量,随后分别进行解码以完成视频和音频的生成。

混合维度旋转位置编码 (MixD-RoPE)另一个关键的架构创新是混合维度旋转位置编码(Mixed Dimension Rotary Position Embedding, MixD-RoPE)。如图 2(d) 所示,为了增强视频中由各种纵横比和持续时间引入的位置信息,我们在三个维度(即时间、宽度和高度)上对视频嵌入应用了 3D RoPE 编码。这种 3D RoPE 结合了视频中的绝对和相对位置依赖性。对于音频模态,我们采用了兼容的时间 1D 位置编码,而其位置编号通过将视频模态的最大时间位置 ID 加一来初始化。因此,我们构建了一个在视频和音频模态之间共享时间位置 ID 的 MixD-RoPE。

全方位全注意力 (Omni-Full Attention)以前的工作可能会采用分离的空间和时间注意力来降低计算复杂度,如 UniForm。然而,正如 CogVideoX 中所述,这种分离的注意力机制需要大量的隐式信息传输,显着增加了学习的复杂性。其他工作为音频和视频生成分别定制了两个 Transformer 塔(例如 AV-DiT, SyncFlow, JavisDiT, TAVGBench)。但是,它们通常采用多阶段训练方法,既复杂又消耗资源。这两个塔必须首先分别进行预训练,然后一起微调,增加了训练时间和资源消耗。为了实现更高效的训练和更有效的模态融合,我们采用了 3D 文本-视频-音频混合全注意力机制。如图 2 所示,在 MM-DiT 模块内,视频、视频相关文本、音频相关文本和音频的隐藏状态首先被缩放和归一化,然后拼接在一起进行注意力计算:

注意力值随后被分割成独立的隐藏状态,经过缩放和归一化、残差连接和前馈网络处理,随后输入到下一个 MM-DiT 模块。结果,在联合全注意力中实现了所有输入模态的统一。

多任务渐进式训练策略

随机模态掩码 (Random Modality Masking)为了学习用于联合生成的通用且鲁棒的音频-视频表示,我们在广泛的任务谱系上训练生成模型。因此,建议有选择地调整音频和视频模态的查询(Query)和键(Key)的掩码。如果我们限制查询和键仅针对视频嵌入和视频描述嵌入,模型将退化为 T2V(文本生成视频)模型。同样,将查询和键限制为音频嵌入和音频文本嵌入会导致 T2A(文本生成音频)模型。通过这种方式,模型不仅可以处理联合生成,还可以保持单模态生成的能力。考虑到高质量音频-视频配对数据的稀缺性,我们的方法为训练 T2VA 模型提供了一种替代方案。首先在 T2V 和 T2A 任务上预训练 Klear,然后在音频-视频配对数据上微调我们的模型,最终构建一个 T2VA 模型。音频和视频生成的学习目标分别如方程 (7) 和方程 (8) 所示:

其中  用于从组合的噪声表示中提取音频 token,而  用于提取视觉 token。总之, 和  表示 T2A 和 T2V 的单模态任务。为了学习可泛化且鲁棒的音频-视觉相关性世界知识,我们还结合了 T2AV、I2V 和 I2AV 的多个任务。因此,整体多任务学习目标如下:

渐进式训练策略 (Progressive Training Strategy)为了高效地训练 AV 联合生成,我们采用了渐进式多任务学习框架,并在所有阶段应用随机模态掩码:

  • 第一阶段:预训练 (Stage-I: Pre-training) 。在大规模、多场景的数据语料库上预训练模型,以获得跨所有任务的原子生成能力,包括跨模态语义对齐、时间同步、高保真音频合成和精确的视觉特征构建。这确保了单模态生成和联合生成的基本能力,并为后续的后训练提供了坚实的基础。
  • 第二阶段:专项后训练 (Stage-II: Specialized Post-training) 。然后,针对模型较弱的能力和任务进行专门训练。在评估指标的指导下,我们自适应地重新平衡跨场景和任务的数据分布,以加强表现不佳的能力,同时保持整体能力。
  • 第三阶段:质量精炼后训练 (Stage-III: Quality-Refined Post-training) 。最后,在人工精选的高质量数据集上微调模型,以精炼生成保真度并增强复杂场景中的鲁棒性,从而提高感知真实感和整体生成质量。

数据集构建

本文数据集包含自动标注的样本。 该数据集包含单人语音、多人语音、唱歌和自然声音片段,总体过滤后保留率为 27%。

图片

数据集过滤

视频过滤和场景分割 首先通过建模动态质量(主体运动比率、相机稳定性)、静态质量(清晰度、美观度、色彩饱和度)、内容自然度(无过多效果/水印)和安全性来过滤视频质量。我们丢弃那些低分辨率、低 SNR/MOS 或超过 20% 静音的视频。 然后,我们应用场景分割以确保每个样本仅包含一个场景。

音频过滤和后处理 通过删除低 SNR、MOS、异常削波、失真或噪声的样本来过滤音频数据,确保低于 20% 的静音、高保真度和一致的格式。 然后,我们评估视听一致性,使用 Synchformer 进行时间对齐,使用 ImageBind 进行语义对齐,确保时间和语义维度的高度同步。

音频引导数据分割

按音频类型对数据集进行分区,将人声与非人声片段分开以形成声音分割。 从声音子集中,我们创建歌唱、单说话者语音和多说话者语音分割,然后对每个语音应用密集的字幕。

密集标注和集成

使用语音转录本、音频字幕和视频字幕的专用模型来标注每个分割,包括元信息和详细内容。 对于语音和唱歌,提取说话者属性(例如性别、年龄),而声音分割仅接收音频字幕。 使用 Whisper-Large-v3、SenseVoice 和 Qwen2.5-Omni 进行转录,使用 Qwen2.5-Omni 和 Gemini 2.5-Pro 进行音频字幕,并使用视频专家模型进行详细视频标签。 所有标注都合并为统一的密集标题。

实验

实验设置

  • 模型规模:Klear 包含 260 亿 (26B) 参数,流匹配的前馈维度为 4096。
  • 网络结构:包含 32 层联合扩散 Transformer (Joint Diffusion Transformer) 层,结合了多模态 RoPE。
  • 编码器:文本编码器使用 1024 维的 TTS 文本编码器,Caption 编码器使用 Qwen2.5-7B。
  • VAE 设置
    • Audio-VAE:处理 44.1 kHz 输入波形,生成 43 Hz 的 Embeddings(相对于输入采样率下采样 1024 倍)。
    • Video-VAE:处理不同分辨率和帧率的视频,生成 3 Hz 的 Embeddings(时空压缩),在高度和宽度维度上均进行了 16 倍压缩。
  • 训练细节:使用 Adam 优化器,初始学习率为 

结果对比与定性分析

图片

本部分通过定性和定量分析展示了 Klear 在多个维度的优势:

  • 唇形同步 (Lip-Sync Accuracy) :Klear 能够生成与语音紧密同步的唇形运动,包括呼吸模式和面部表情的自然匹配。
  • 情感表达 (Emotional Expressiveness) :生成的视频不仅口型对齐,还能展现出与语音语调一致的情感(如兴奋、深思)。相比之下,Universe-1 和 Ovi 等基线模型常出现表情扭曲。
  • **歌唱与说唱 (Singing and Rap)**:在歌唱和说唱场景中,Klear 精确控制了音高、节奏与呼吸的对齐。例如颤音(Vibrato)和转音(Melisma)能自然地与面部表情匹配。
  • 音视频同步 (AV Synchronization) :背景音乐和音效(如乐器演奏)与视频内容在时间上严格对齐,提升了沉浸感。
  • 图生音视频 (Image to Audio-Video) :在 TI2AV 任务中,Klear 保持了输入图像的高身份一致性(Identity Consistency),同时生成合理的摄像机运动,而基线模型常出现身份漂移。

定量对比

图片
图片

虽然无法完全展示表格数据,但文中提到 Single Tower(本工作)在 ID 保持 (0.80 vs 0.62)、MOS 评分 (93.11 vs 62.02) 和音视频一致性 (Sync-conf 6.787 vs 3.762) 等指标上均显著优于 Dual Tower 架构。

消融实验

  • 架构有效性:通过对比单塔(Single Tower)和双塔(Dual Tower)架构,验证了将音频和视频特征输入统一的 mm-DiT 分支并配合 Omni-Full Attention 的设计,能显著提升模态间的对齐效果。
图片

总结

Klear,一种新颖的用于高保真音视频联合生成的统一 Transformer 架构。通过引入 Omni-Full Attention(全方位全注意力机制),Klear 在单个流内无缝集成了视频、音频及其对应的文本条件,从而实现了卓越的音视频同步和细粒度的语义对齐。为了促进稳健的多任务学习,我们设计了一种包含随机模态掩码(random modality masking)的渐进式训练策略,使模型能够在联合生成和单模态生成(如 T2V、T2A、TI2AV 等)之间灵活切换,同时保持高质量的输出。此外,我们构建了第一个带有详细且严格时间对齐的描述的大规模音视频数据集,解决了该领域高质量配对数据稀缺的关键问题。大量的实验表明,Klear 在生成质量、指令遵循能力和跨模态一致性方面显著优于现有的开源方法,并取得了与最先进的闭源模型(如 Veo 3)相当的性能。我们的工作为更加统一、可扩展且语义一致的多模态生成系统铺平了道路。

参考文献

[1] Klear : Unified Multi-Task Audio-Video Joint Generation

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

疯了!Claude Code v2。1 狂更50+项,这才是开发者该有的效率神器!

终于来了 昨天发了一篇 DeepSeek V4春节突袭!编程能力碾压Claude,全球代码圈要变天? 这不Claude Code v2.1就 来了。不过就算CC再升级,也不影响deepseek的王者地位。 大家好,我是指挥官,专注用AI工具提高工作效率,欢迎关注公众号,有福利...