2025年12月23日星期二

超越Veo和Runway!可灵开源Kling-Omni:一个模型通吃视频生成、剪辑和多模态推理!

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Kling 团队

解读:AI生成未来
图片

论文链接:https://arxiv.org/pdf/2512.16776
体验链接:https://app.klingai.com/global/omni/new

亮点直击

  • 统一的通用框架:Kling-Omni将多样化的视频生成、编辑和智能推理任务整合到一个端到端的通用生成框架中,打破了传统碎片化的处理模式。
  • 创新性的多模态视觉语言 (MVL) 范式:引入MVL作为交互机制,结合文本指令、参考图像和视频上下文,构建统一的输入表示,显著提升了模型理解和推断用户复杂意图的能力。
  • 强大的模型智能和推理能力:通过MVL范式,模型超越了简单的像素级合成,展现出深度理解语义、物理逻辑和进行智能推理的潜力。
  • 全面的训练与优化策略:构建了包括指令预训练、监督微调、强化学习和模型蒸馏在内的多阶段训练策略,并通过优化的数据管道和基础设施确保了大规模训练的效率和可扩展性。
  • 卓越的性能表现:在人类评估中,Kling-Omni在多模态引用生成、智能编辑和复杂指令遵循等多个关键任务上,表现出超越现有领先模型的先进性能。

部分效果展示

图片
图片
图片
图片
图片
图片

总结速览

解决的问题

当前视频生成、编辑和智能推理任务之间存在功能分离,导致工具碎片化,难以处理多样化的用户输入并实现高级别的感知与创作协同。具体挑战包括:

  • 碎片化的视频生成与编辑方法:现有模型通常专注于特定任务,如文本/图像到视频合成,且依赖静态文本编码器,难以捕捉复杂视觉细节。视频编辑和理解也常依赖独立的、任务特定的管道或外部适配器,造成集成和扩展困难。
  • 交互范式的限制:仅依赖自然语言提示难以捕捉视觉想象的细微之处,文本在描述精确空间关系、视觉参考和时间动态方面存在固有局限,导致用户意图与模型输出之间存在差距。
  • 模型智能不足:现有模型在像素级合成方面表现出色,但往往缺乏语义推理能力,难以理解场景的底层物理或逻辑,更像是被动生成器而非能推断复杂用户意图的智能代理。

提出的方案

Kling-Omni是一个通用生成框架,旨在通过统一视频生成、编辑和智能创作任务来解决上述挑战。核心方案包括:

  • 一体化通用框架:将不同的视频生成、编辑和智能推理任务整合到一个端到端的整体系统中,摒弃了碎片化的管道方法。
  • 多模态视觉语言 (MVL) 交互范式:引入MVL作为新的交互机制,通过结合自然语言作为语义骨架和多模态描述,构建统一的输入表示。这增强了模型的基础理解和控制,将文本和视觉信号视为一种内聚的语言。
  • 强化模型智能与推理能力:通过MVL范式,模型能够深度理解并推断用户意图,超越简单的生成,展现出意想不到的推理能力。

应用的技术

Kling-Omni的实现依赖于多种先进技术和策略:

  • 核心架构:基于与视觉-语言模型对齐的扩散Transformer构建,建立了一个共享嵌入空间,实现深度跨模态交互。
  • 三阶段训练策略
    • 预训练:利用大规模文本-视频配对数据,结合指令驱动的文本到视频生成和图像到视频任务,建立对多样指令格式和MVL上下文的敏感性。
    • 监督微调:包括"持续训练"以对齐复杂MVL输入(涵盖参考到视频生成、图像/视频编辑和语义理解任务)和"质量微调"以提升生成质量和多模态理解能力。
    • 强化学习 (RL):采用直接偏好优化(DPO)来弥合模型输出与人类审美偏好之间的差距,优化运动动力学和视觉完整性。
  • 模型加速:开发了两阶段蒸馏方法,包括轨迹匹配蒸馏和分布匹配蒸馏,显著减少推理的计算成本(从150 NFE压缩到10 NFE)。
  • Prompt Enhancer (PE) 模块:基于多模态大语言模型(MLLM)构建,用于将多样化用户提示映射到与模型训练数据一致的分布上,并通过SFT和RL进行训练,以提高生成质量和物理合理性。
  • 多模态超分辨率模块:采用级联扩散框架,基于基础模型的低分辨率潜在特征和MVL信号进行条件设置,以合成高保真、细粒度的视觉细节和纹理,并利用局部窗口注意力、偏移窗口策略和非对称注意力机制来提高效率。
  • 训练优化:包括多模态数据管道和负载均衡(采用启发式调度策略、微批次级弹性ulysses并行切换机制和两层all-to-all策略)以及高效多模态框架和激活减少(使用MM-FlashAttention和选择性重计算)。

达到的效果

Kling-Omni通过综合评估展现了卓越的能力和显著的效果:

  • 卓越的生成和编辑性能:在OmniVideo-1.0基准测试中的人类评估表明,Kling-Omni在图像参考和视频编辑任务上,在动态质量、提示遵循、身份一致性和视频一致性等所有评估维度上均优于行业领先模型(如Veo 3.1和Runway-Aleph)。
  • 强大的上下文生成能力:在上下文中展现出色的生成能力,包括多模态和多维度精确引用(如图像、视频和文本输入,以及身份、状态、风格、镜头构图和动作等多个引用维度)。
  • 智能推理编辑能力:能够进行推理驱动的编辑,例如通过解释图像序列生成连贯的时间叙事,以及实现高自由度的交互式编辑,允许用户沿任意维度(元素、风格、场景、镜头)进行内容控制。
  • 复杂指令遵循能力:能够在一个生成过程中处理组合的复杂指令,无需顺序任务执行或手动分解,简化了工作流程并避免了错误累积。
  • 更广泛的智能潜力:探索性研究表明,模型能够实现视觉信号驱动的可控生成和推理增强型生成,例如通过GPS坐标实现地理空间推理,以及通过理解时间动态进行时间推理,从而实现上下文感知的场景合成和智能问题解决。
  • 高效率:通过模型蒸馏,推理效率显著提升,合成单个视频样本的计算成本大幅降低。

架构方法

Kling-Omni是一个通用生成框架,旨在直接从多模态视觉语言(MVL)输入合成高保真视频。本文采用端到端视角,弥合了各种视频生成、编辑和智能推理任务之间的功能分离,将它们整合到一个整体系统中。与分离的管道方法不同,Kling-Omni支持多样化的用户输入,包括文本指令、参考图像和视频上下文,将它们处理成统一的多模态表示,以提供电影质量和高度智能的视频内容创作。为了支持这些功能,本文构建了一个全面的数据系统,作为多模态视频创作的基础。该框架通过高效的大规模预训练策略和推理基础设施优化进一步增强。

如下图1所示,该架构包含三个关键组件,并由强大的训练和基础设施生态系统提供支持。

图片
  • Prompt Enhancer (PE) 模块:为了弥合异构用户输入和模型表示之间的鸿沟,PE模块采用多模态大语言模型(MLLM)来理解复杂的输入,并将其与学习到的世界知识进行综合。通过这样做,它推断出创作者的特定创作意图并相应地重新组织提示。这些经过优化的特征作为Omni-Generator的输入。
  • Omni-Generator:处理共享嵌入空间中的视觉和文本标记,实现深度跨模态交互,确保强大的视觉一致性和精确的指令遵循。
  • 多模态超分辨率模块:对原始MVL信号进行条件处理,以细化高频细节。

整个系统由渐进式多阶段训练策略驱动,包括指令预训练、监督微调到强化学习(RL),并在利用3D并行和模型蒸馏的高度优化基础设施上运行,以提高训练和推理效率。

Omni-Generator的训练策略

预训练 在预训练阶段,本文利用大规模文本-视频配对数据,向模型灌输强大的基于指令的文本到视频生成能力。为确保模型能适应广泛的用户输入,本文精心策划了从简洁提示到详细叙述的各种字幕,从而为理解多样化的指令格式奠定了坚实的基础。此外,为促进模型对多模态视觉语言(MVL)上下文的敏感性,本文将图像到视频任务注入训练混合中,在视觉和文本模态之间建立早期协同作用。

监督微调

  • 持续训练:此阶段侧重于使模型与复杂的MVL输入深度对齐。本文引入了一个全面的课程,包括参考到视频生成、图像/视频编辑以及一系列用于语义理解的专业任务。这些任务的特点是图像、视频和文本条件的交错格式。通过将模型暴露于此类异构且信息丰富的数据,有效增强了其解释复杂指令和执行初步推理的能力。

  • 质量微调:为了进一步提高模型的生成质量和多模态理解能力,本文精心构建了一个高质量数据集,其特点是任务分布均衡和视频标准卓越。每个数据样本都与精确的指令注释配对。通过对这个优质数据集进行迭代微调,本文逐步优化模型的输出分布,使其进入卓越视觉质量和理解能力的领域。

强化学习为了弥合模型输出与人类审美偏好之间的差距,本文采用直接偏好优化(DPO)。本文倾向于DPO而不是像GRPO这样的替代算法,因为它绕过了后者所需的计算成本高昂的轨迹采样,提供了简化的单步扩散正向过程。优化目标集中在关键感知指标上,特别是运动动力学和视觉完整性。

模型加速 (蒸馏)本文开发了一种两阶段蒸馏方法,以显著降低推理的计算成本,同时保持输出保真度。加速管道结合了轨迹匹配蒸馏和分布匹配蒸馏,将模型推理压缩到10个函数评估(NFE),而蒸馏前合成单个视频样本的原始成本为150个NFE。

Prompt Enhancer

为解决用户输入固有的模糊性和高方差问题,本文为Kling-Omni引入了一个Prompt Enhancer (PE) 模块。PE的主要功能是将多样化的用户提示映射到与模型训练数据一致的分布上。这种对齐对于提高生成质量至关重要,特别是在身份保持、空间连贯性和色彩保真度方面,同时通过文本推理提高物理合理性。PE基于多模态大语言模型(MLLM)构建,以适应多模态用户输入。

多模态超分辨率

为了提高生成器的训练和推理效率,本文提出了一种用于视频超分辨率(VSR)的级联扩散框架。在基础模型的低分辨率(LR)潜在特征和多模态视觉语言(MVL)信号的条件下,本文的VSR模型作为统一框架运行。这种内聚设计能够合成高保真、细粒度的视觉细节和纹理,满足各种应用的需求。如下图2所示,本文采用基础模型的架构,并使用其预训练权重初始化VSR模块。

图片

训练优化

本文开发了一个端到端训练系统,优化多模态数据处理、并行执行和计算内核,以实现大规模预训练。

图片
图片
  • 多模态数据管道和负载均衡为了处理文本、图像和视频数据之间显著的序列长度变化,本文采用启发式调度策略来减少管道并行(PP)和数据并行(DP)组之间的不平衡气泡。如图3所示,训练循环分为两个阶段:在线VAE/文本编码器推理和DiT训练。中央调度器将样本分配给DP组,以确保负载均衡。

  • 高效多模态框架和激活减少在DiT训练中,输入被展平为1D序列,并具有最小的填充,并且计算图被重构以保留模态无关的计算,从而最大程度地减少冗余数据移动和布局转换开销。本文开发了一种多模态FlashAttention运算符(MM-FlashAttention)的打包版本,以支持单个内核中的任意跨模态掩码和变长序列,同时保持高性能。

实验

人类评估

为了验证Kling-Omni与其他领先视频生成和编辑模型相比的性能,本文构建了OmniVideo-1.0基准测试,其中包含了一套全面且具有代表性的场景。本文收集了大量高质量的多模态数据集,包括图像、主题和视频作为元素。利用该数据集,本文设计了500多个案例,以全面评估模型引用、集成和编辑不同元素的能力。本文从多个维度精心构建了评估集,包括:主题类别(包含人类、卡通人物、动物、服装和道具)、应用场景(如专业视频制作、电子商务广告和社交媒体内容创作)以及额外挑战(涉及复杂动作、广角视角、情感表达、跨风格集成和多元素融合)。

本文与从专业导演到普通用户的创作者合作。通过收集不同用户群体的需求,本文构建了一个全面、结构化和可解释的评估系统,以评估模型的整体能力。该系统主要包括以下核心指标:

  • 动态质量:评估模型的时序性能,关注帧间连续性、属性稳定性以及运动相对于物理定律和常识动力学的合理性。
  • 提示遵循:反映用户的创作意图,衡量模型指令遵循的准确性。
  • 身份一致性:评估模型在视频中不同视角、表情、复杂运动和光照条件下,保持参考主体(如人物、物体或风格)的身份和结构特征的能力。
  • 视频一致性:专门针对视频编辑任务,衡量模型对未编辑区域的忠实度。

本文基于OmniVideo-Benchmark 1.0进行了双盲人类评估,邀请领域专家和专业标注员将Kling-Omni与行业领先模型进行比较。评估人员根据定义的维度进行并排定性评估,将相对性能分为三类:G(好)、S(相同)和B(差)。

如下图7所示,Image-Reference和Video-Editing任务的聚合GSB指标分布呈现了结果。本文将Kling-Omni与Veo 3.1在图像参考任务上进行比较,并与Runway-Aleph在视频编辑任务上进行比较。结果表明,Kling-Omni在所有评估维度上都不同程度地优于竞争对手,验证了其在复杂生成和编辑场景中的鲁棒性和可靠性。

图片

通过Kling-Omni释放想象力

本节展示了Kling-Omni的功能。如下表1所示,列出了代表性功能,包括但不限于基于引用的生成、指令驱动的编辑、视频引用、帧条件生成、组合生成、视觉提示理解、通过智能推理实现的生成等。

图片
  • 多模态和多维度精确引用Kling-Omni通过多模态和多维度引用实现精细可靠的控制,如上表1所示。该模型支持基于多种输入形式(图像、视频和文本)的灵活条件设置,并允许用户指定多个维度(包括但不限于身份、状态、风格、镜头构图和动作)的引用信息。

  • 时间叙事此功能使模型能够解释一组相关图像(无论是描绘连续的单一镜头还是复杂的多镜头序列),并生成全面的视频演示,如下图15和下图16所示。通过智能地弥合帧之间的视觉间隙,模型构建了一个连贯、按时间顺序流动的叙事,将静态故事板转换为动态视频体验。

图片
图片
  • 高自由度交互式编辑除了传统的编辑操作(如内容的添加、删除和替换),Kling-Omni还支持不受时间和空间限制的无约束交互式操作,允许用户沿任意维度(包括元素、风格、场景和镜头)控制视频内容,如下图17至下图23所示。
图片
图片
图片
图片
图片
图片
图片
  • 灵活的任务组合如图24和图25所示,该模型能够在一个生成过程中处理组合的复杂指令,而无需顺序任务执行或手动分解。这种统一的方法不仅简化了工作流程,还避免了顺序编辑中通常出现的错误累积,确保了更一致和准确的结果,同时提高了整体生成效率。
图片
图片

Kling-Omni的更广泛潜力

本文对智能推理增强型生成进行了探索性研究,集成了一个更强大的视觉-语言推理引擎,以弥合抽象用户提示与具体视觉执行之间的差距。如下图27所示,该系统利用世界知识,例如解释GPS坐标或推断时间动态,将用户指令置于真实世界语境中。例如,它可以解码原始地理坐标以检索相关的地标知识(例如埃菲尔铁塔),从而实现上下文感知的场景合成。此外,如下图28所示,该系统展示了推理能力,包括用于排序任务的几何和关系推理,以及用于完成视觉谜题的语义结构推理。

图片
图片

结论 

Kling-Omni,一个通用生成模型,它弥合了视频生成、编辑和多模态推理之间的传统界限。通过利用与视觉-语言模型对齐的扩散Transformer,Kling-Omni建立了一个共享嵌入空间,实现了深度的跨模态交互。Kling-Omni有效地用一个单一的整体系统取代了碎片化的专家模型,该系统能够处理多模态视觉语言(MVL)输入,以生成高保真、物理上可信的视频内容。本文的贡献不仅限于模型架构,还包括强大的训练和数据基础设施。本文构建了一个全面的数据工程管道,确保了时间稳定性和语义对齐,并实施了高度优化的基础设施,以确保可扩展性和效率。广泛的评估表明,Kling-Omni在复杂任务中取得了最先进的性能。展望未来,Kling-Omni代表着构建能够感知、推理、生成并与动态复杂世界交互的多模态世界模拟器的基础性一步。

参考文献

[1] Kling-Omni Technical Report

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

NotebookLM 再次升级,来自谷歌的年终礼物

   见字如面,我是艾康。 点击关注 👆防止迷路。   本文字数 2617,阅读大约需 5 分钟 就在前两天,NotebookLM 给所有 Pro 和 Ultra 用户送上了一份非常棒的年终礼物🎁。 一个全新的功能—— 数据表格(Data Table) 。 (免费版的朋友...