👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:快手Kling团队
论文链接: https://arxiv.org/abs/2512.13313 项目地址: https://app.klingai.com/global/ai-human/image/new/
亮点直击
时空级联框架:提出了一种渐进式生成的架构,支持长时长(长达5分钟)、高分辨率的视频生成,有效缓解了长视频中的时间漂移问题。 协同推理导演:引入了由三个特定模态 LLM 专家组成的导演模块,通过多轮对话进行推理,解决了多模态指令冲突问题,并引入了"负面导演"来优化生成质量。 多角色多音频控制:利用深层 DiT 特征进行掩码预测,实现了在复杂对话场景下对多个角色的独立音频驱动控制。 卓越的性能与泛化能力:在视觉质量、口型同步、情感表达及指令遵循方面达到了 SOTA(State-of-the-Art)水平。
解决的问题
生成效率与质量的平衡:之前的虚拟人视频生成模型在生成长时长、高分辨率视频时效率低下。 时间一致性差:随着视频长度增加,容易出现时间漂移(Temporal drifting)和视觉质量下降。 多模态指令遵循弱:在处理复杂的长视频指令时,往往难以保持对文本、音频和图像指令的连贯响应。 多角色控制难题:在涉及多个角色的场景中,难以精确地将特定音频驱动对应的角色而不产生干扰。
提出的方案
两阶段级联生成:首先生成低分辨率的"蓝图"关键帧以捕捉全局语义和运动,然后通过"首尾帧策略"将其细化并上采样为高分辨率、时间连贯的子片段。 多专家协同规划:通过音频、视觉、文本三个专家模型的协同推理(Chain-of-thought),将模糊的用户输入转化为详细的分镜头脚本。 ID 感知掩码控制:利用 DiT 模块深层的特征来预测角色掩码,从而实现精确的局部音频注入。
应用的技术
DiT (Diffusion Transformer) :作为基础视频生成骨干网络。 MLLM (Multimodal Large Language Model) :用于构建协同推理导演模块,进行多轮对话推理和脚本规划。 时空超分辨率 (Spatio-Temporal Super-Resolution) :在空间和时间维度上对视频进行上采样。 轨迹保留蒸馏 (Trajectory-preserving Distillation) :用于加速视频生成过程。 自动化数据标注流水线:结合 YOLO、DWPose 和 SAM 2 构建多角色视频数据集。
达到的效果
视觉清晰度增强:生成结果具备电影级画质。 逼真的细节渲染:实现了准确的唇齿同步和逼真的面部表情。 强身份保持能力:在长视频生成中能保持角色身份的一致性。 复杂指令遵循:能够理解并执行复杂的运镜和动作指令(如"双手在胸前交叉")。 多角色互动:成功实现了多人在同一场景下的独立说话与互动。
方法
KlingAvatar 2.0 扩展了 Kling-Avatar的流程。如图 2 所示,给定参考图像、输入音频和文本指令,该系统能高效生成高保真、长时长的数字人视频,并具备精准的口型同步以及对多说话人和角色的细粒度控制。下文将详细介绍时空级联扩散框架、协同推理多模态剧情导演、多角色控制模块以及加速技术。
时空级联建模
为了在计算高效的前提下支持长时长、高分辨率的数字人合成,KlingAvatar 2.0 采用了建立在预训练视频扩散模型之上的音频驱动 DiT 时空级联架构,如图 2 所示。该流程包含两个嵌套的级联,共同处理长跨度的全局剧情规划和局部的时空细化。
首先,一个低分辨率扩散模型生成捕捉全局动态、内容和布局的"蓝图视频";随后,代表性的低分辨率关键帧由高分辨率 DiT 进行上采样,在相同的协同推理导演的全局提示词下,丰富细节并保持身份与场景构成。接着,低分辨率视频扩散模型通过"首尾帧条件生成"(first-last-frame conditioned generation)将这些高分辨率锚点关键帧扩展为与音频同步的子片段,其中的提示词由蓝图关键帧增强,以细化微小的动作和表情。一种音频感知的插值策略被用于合成过渡帧,以增强时间连接性、口型同步和空间一致性。最后,高分辨率视频扩散模型对低分辨率子片段进行超分辨率处理,生成高保真、时间连贯的视频片段。
协同推理导演
KlingAvatar 2.0 采用了一位协同推理导演,该导演建立在近期基于 MLLM 的虚拟人规划器基础之上,以多轮对话的方式联合推理音频、图像和文本。该导演由三位专家实例化: (i) 音频中心专家:执行转录和副语言分析(情感、韵律、说话意图); (ii) 视觉专家:从参考图像中总结外观、布局和场景上下文; (iii) 文本专家:解释用户指令,结合其他专家的对话历史,并合成逻辑连贯的剧情计划。
这些专家通过思维链(Chain-of-Thought)进行多轮协同推理,展示中间思维过程以解决冲突(例如,愤怒的语调搭配中性的剧本),并补充未明确的细节,如隐含的动作或摄像机运动。导演输出一个结构化的剧情线,将视频分解为一系列镜头。此外,本工作还引入了一位负面导演(Negative Director),其中正面提示词强调期望的视觉和行为属性,而负面提示词则明确降低不可信的姿态、伪影、细粒度的相反情绪(如悲伤 vs 快乐)或运动风格(如过快 vs 过慢)的权重。
对于长视频,导演进一步将全局剧情细化为与音频时间轴对齐的片段级计划,这直接参数化了关键帧级联和片段级细化模块。这种高层级的多模态规划将松散指定的指令转化为扩散骨干网络可以一致遵循的连贯脚本,大幅提高了语义对齐和时间连贯性。
多角色控制
KlingAvatar 2.0 将单说话人虚拟人设置推广到了多角色场景和身份特定的音频控制。本工作的设计遵循了近期多人对话虚拟人,如[33, 62, 63] 中使用的角色感知音频注入范式。根据经验,本工作观察到一个重要的架构属性:DiT 块不同深度的隐藏特征表现出截然不同的特征表示。特别是,深层 DiT 层的潜在表示被组织成语义连贯且噪声减少的空间区域,这些区域与个体角色和其他显著物体对齐良好。
受此观察启发,本工作在选定的深层 DiT 块上附加了一个掩码预测头(Mask-prediction head),如图 3(a) 所示。具体而言,给定第一帧中的指定角色,使用相同的切片化方案对参考身份裁剪图像进行编码(不向参考 Token 添加噪声)。然后计算视频潜在 Token 与每个身份的参考 Token 之间的交叉注意力,并应用 MLP 模块回归每一帧的角色掩码。真值(GT)掩码被下采样以匹配中间潜在特征的空间和时间分辨率。在训练期间,DiT 视频骨干网络被冻结,仅优化掩码预测模块。在去噪过程中,预测的掩码用于将身份特定的音频流注入门控到相应的区域。
为了促进大规模多角色训练数据集的构建,本工作扩展了数据源,包括播客、访谈、多角色电视剧等。为了大规模收集 GT 角色掩码,本工作开发了一套自动化的标注流水线来生成每个角色的视频掩码,如图 3(b) 所示。该流水线利用了几个专家模型:YOLO用于人员检测,DWPose用于关键点估计,SAM 2用于分割和时间跟踪。具体来说,首先使用 YOLO 检测第一帧中的所有角色,使用 DWPose 估计每个检测中的关键点,并将生成的边界框和关键点作为 SAM 2 的提示词,以分割和跟踪后续帧中的每个人物。最后,根据每帧的 YOLO 和 DWPose 估计结果验证生成的视频掩码,并过滤掉未对齐或重叠度低的片段,以确保训练的高质量标注。
加速视频生成
为了实现加速的推理效率,本工作探索了基于以 PCM和 DCM为代表的轨迹保留蒸馏(trajectory-preserving distillation),以及以 DMD为代表的分布匹配蒸馏(distribution matching distillation)方案。基于对实验成本、训练稳定性、推理灵活性和最终生成性能指标的综合评估,最终选择了轨迹保留蒸馏方法。为了进一步提高蒸馏效率,本工作通过分析基础模型在不同时间步的表现开发了定制的时间调度器,从而平衡推理加速比与模型性能。在蒸馏算法中,本工作通过一系列精心设计的配置引入了多任务蒸馏范式。该范式产生了协同效应(1+1>2),改善了每个单独任务的蒸馏结果。
实验
实验设置
为了全面评估 KlingAvatar 2.0,本工作遵循基于人类偏好的主观评估协议。构建了包含 300 个高质量测试用例的测试集(100 个中文语音、100 个英文语音、100 个歌唱样本)。评估者在 GSB(Good/Same/Bad)标准下将本模型与基线方法进行两两比较。评估维度包括:面部-口型同步 (Face-Lip Sync)、视觉质量 (Visual Qual.)、运动质量 (Motion Qual.)、运动表现力 (Motion Expr.) 以及 **文本相关性 (Text Rel.)**。
实验结果
本工作将 KlingAvatar 2.0 与三个强基线进行了比较:HeyGen、Kling-Avatar和 OmniHuman-1.5。
定量结果:如表 1 和图 4 所示,本方法在所有维度上均取得了领先,特别是在运动表现力和文本相关性方面提升显著。
定性比较:如图 5 所示,本模型生成的头发动态更符合物理规律且自然,相比之下基线方法(如 Kling-Avatar, OmniHuman-1.5)略显僵硬或物理感不足。在多模态指令遵循方面,本方法能更准确地执行如"从下到上的运镜"或"双手在胸前交叉"等复杂指令,而基线方法有时会忽略动作强度或产生错误的动作(如将手放在腰部而非胸前)。
多场景与消融研究:图 6 展示了模型在多说话人交互场景下的泛化能力。图 7 的消融研究表明,相比于使用通用的负面提示词,引入负面导演 (Negative Director) 进行镜头级的细粒度负面提示控制,能有效抑制不合理的表情和伪影,提升情感表达的准确性和时间稳定性。
结论
KlingAvatar 2.0,这是一个统一的框架,通过全向协同推理导演实现时空级联生成,用于合成高分辨率、长时长、栩栩如生的多人虚拟人视频。本工作的多模态、多专家协同推理导演通过多轮对话对音频线索、视觉上下文和复杂指令进行思考和规划,以解决歧义和信号冲突,生成连贯的全局剧情以指导长视频合成轨迹,并生成详细的局部提示词以细化子片段的动态。
这种层级化的剧情驱动了低分辨率蓝图关键帧的生成,以及时空上采样的高分辨率、音频同步子片段的生成,这些子片段通过首尾帧条件并行且高效地组合成长视频。本工作进一步将应用场景扩展到具有身份特定音频控制的多角色设置,并开发了自动化标注流水线以整理大规模多人视频数据集。实验表明,KlingAvatar 2.0 在视觉保真度、身份保持、口型-音频同步、指令遵循、长时长连贯性以及多角色、多音频可控性方面均表现出领先的性能。我们相信,本工作对全向导、多角色、多音频、长形式、高分辨率虚拟人合成框架的探索,为数字人生成的未来研究和应用铺平了道路。
参考文献
[1] KlingAvatar 2.0 Technical Report
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论