AI I024: 音画同步新纪元！快手Kling-Foley颠覆视频创作：秒级生成好莱坞级音效+人声BGM！

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

作者：Jun Wang等

解读：AI生成未来

论文链接：https://www.arxiv.org/pdf/2506.19774
项目链接：https://klingfoley.github.io/Kling-Foley/

亮点直击
Kling-Foley，一个新颖的视频转音频（V2A）框架，能够生成与视频内容完美同步的高保真音频，在音频质量、语义对齐以及视听同步等指标上均达到了SOTA性能。
设计了视觉语义表示模块和视听同步模块，实现了每一帧视频特征与音频表示的对齐，在文本条件控制下进一步增强了语义相关性与时间一致性。
构建了一个通用的音频隐空间编码器，能够高保真地建模多种音频场景，包括音效、语音、歌唱和音乐等。
Kling-Audio-Eval，首个工业级的多模态评测基准，包含同步的视频、文本描述和音频，涵盖九大音频场景，共计 20,935 条人工标注样本。通过全面的多模态标注和场景覆盖，弥补了现有数据集的不足。

Kling-Foley，一种大规模多模态视频到音频生成模型。通过输入视频和可选的文本提示，该模型合成了高保真音频，该音频在语义上与视频内容对齐并在时间上同步，包括声音效果和背景音乐等元素。值得注意的是，Kling-Foley可以产生任意持续时间的音频序列，动态地适应输入视频的长度

总结速览

解决的问题

视频转音频生成中的模态对齐困难：现有方法难以在视频、音频和文本之间实现细粒度的语义对齐和时间同步，导致生成音频与视频内容不匹配。
缺乏通用、高质量的音频建模能力：现有模型在处理多种音频类型（如音效、语音、音乐等）时表现不一致，缺乏统一的音频表示框架。
评测基准不完善：现有开源数据集在音频类型和标注维度上存在不足，难以全面评估多模态生成模型的能力。

提出的方案

提出 Kling-Foley 框架：一个大规模多模态的视频转音频（V2A）生成系统，支持视频、文本条件下的高质量音频生成。
引入多模态扩散 Transformer：用于建模视频、音频和文本三种模态之间的协同关系，提升生成音频的语义相关性。
设计视觉语义表示模块与视听同步模块：实现视频帧与音频隐空间表示之间的帧级对齐，有效提升语义一致性与时间同步。
构建通用音频潜编码器：支持对多种音频类型的高保真建模，统一音频表示空间。
采用立体声渲染技术：赋予生成音频空间感，增强沉浸式体验。
发布 Kling-Audio-Eval 工业级评测基准：涵盖九大音频场景，提供 20,935 条多模态标注样本，支持全面评估模型性能。

应用的技术

多模态扩散 Transformer：融合视频帧、文本提示与音频隐空间变量，实现模态间联合建模与条件控制。
视觉语义表示与同步模块：通过帧级对齐机制提升视听一致性。
通用音频潜编码器（Universal Latent Audio Codec）：统一音效、语音、歌唱、音乐等多类型音频的表示与重建。
立体声渲染（Stereo Rendering）：增强合成音频的空间表现力。
流匹配训练目标（Flow Matching Objective）：用于优化扩散过程中的分布对齐，提升生成质量。
Kling-Audio-Eval 数据集：提供多模态、高质量的评测基准，用于量化模型在不同任务下的表现。

达到的效果

生成音频质量显著提升：在多个公开指标上实现高保真音频输出。
语义对齐与时间同步能力增强：音频内容与视频画面在语义和时间维度上高度一致。
支持多种音频场景建模：涵盖音效、语音、歌唱、音乐等领域，具备广泛适用性。
在公开模型中达到 SOTA 性能：在分布匹配、语义一致性、时间同步和音质等方面均取得领先成绩。
推动多模态音频生成领域发展：通过模型设计与评测基准的双重创新，为后续研究提供了强大基础。

Kling-Foley

概述

受 MMAudio 启发，本文提出了 Kling-Foley。本文方法的核心是建模视频、音频和文本模态之间的交互。本文采用了 SD3 的 MM-DiT 模块设计，并引入了两个用于时间对齐的新组件：aligned RoPE 位置嵌入，用于适配不同帧率的序列，以及 1D 卷积和 MLP，用于捕捉局部时间结构。同时，添加了一个可学习的时长模块，以控制根据自然分布的视频时长特征生成可变长度音频的过程。此外，本文结合了基于 FLUX 的音频专用单模态模块，在不牺牲多模态能力的前提下，使网络在参数不变的情况下更深。这一架构使模型能够根据输入选择性地关注不同模态，支持音频-视觉和音频-文本数据的联合训练。

可变时长控制

为支持可变长度的视听生成并增强时间控制能力，本文引入了离散时长嵌入，作为全局条件机制的一部分。具体而言，每个训练片段计算两个标量属性：原始视听序列的开始时间和总时长。这些值被嵌入到每秒可学习的嵌入中，并与全局文本和视觉特征拼接。所得的时间感知全局条件通过一个浅层 MLP 与扩散时间步嵌入融合，并通过自适应层归一化（Adaptive Layer Normalization）应用于所有 Transformer 层。每个 adaLN 层通过基于全局条件向量对归一化特征进行缩放和偏移，从而调制逐 token 的激活。

联合注意力机制

在本文的架构中，本文通过联合注意力策略实现跨模态通信。受先前工作的启发，本文将文本、视觉和音频模态的 query、key 和 value 矩阵整合到统一的注意力计算中。具体来说，这些模态特定的组件被拼接，并传入一个共享的缩放点积注意力模块中。注意力操作之后，得到的统一输出根据初始 token 分组被重新分割为三个原始模态。尽管这种联合机制促进了丰富的跨模态交互，但本文强调，仅靠该机制并不能确保如音频与视频等流之间的时间同步。

灵活的成对训练

为有效支持在任意输入组合（文本、视频和音频）下的多模态生成，本文采用了一种反映算法 1 中模块化结构的条件训练策略。每种模态首先被独立编码：视频输入通过 MetaCLIP 和 SyncFormer 处理，以提取语义和同步特征；文本输入则通过 T5 编码。缺失的模态被学习的占位符嵌入（, ）替代，以确保表示空间的一致性。

同步特征被投影并上采样，以生成两种类型的条件 token：align feature 和 global feature，后者包含了开始时间和总时长的可学习嵌入。这些全局 token 通过一个浅层 MLP 与扩散时间步嵌入融合，并通过 Adaptive LayerNorm 调制每一层 Transformer。

在联合 Transformer 阶段，模态特定特征被投影到共享隐空间中。RoPE 嵌入被添加到音频和视觉 token 上（经过重标定以实现时间对齐），用于编码时间结构。联合注意力实现跨模态交互，而在联合融合之后应用的音频专用 Transformer 模块则提供高效的单模态细化，有利于音频续写和 TTA 等任务。

隐空间音频编码器

隐空间音频编码器扩展了本文先前的 VQ-CTAP 框架，继承了其核心组件，同时引入了关键修改以优化音频重建。如下图 3 所示，隐空间音频编码器的核心是一个 Mel-VAE，由三个主要部分组成：mel 编码器、mel 解码器和判别器。音频编码器处理以 44.1 kHz 采样的输入波形，以 43 Hz 的速率生成嵌入（相当于相对于输入采样率下采样 1024 倍）。关键在于，VAE 结构使模型能够学习隐空间的连续且完整的分布，显著增强了音频表示能力。

结构

如上图 3 所示，表示目标音频数据的输入批次，，其中是批大小，是时间帧数，是频谱成分数（mel 频谱带数）。通过音频编码器处理：，其中是目标音频表示。音频编码器将音频表示的长度压缩了 2 倍。

编码之后，模型利用 VAE 结构对潜在分布进行参数化。在公式 (5) 中，表示 KL 损失，表示高斯分布，表示音频表示隐空间分布的均值与方差。由于网络中的随机操作无法通过反向传播处理，因此在 VAE 中引入了"重参数化技巧"：。为了解决 KL 崩溃问题，引入了一个边界来限制 KL 损失的最小值，如下所示：

为了使用预训练的隐空间表示实现重建能力，隐空间变量被用作音频解码器的输入以预测 mel 频谱图：

使用均方误差（MSE）损失来比较预测的 mel 频谱图与真实的 mel 频谱图：

判别器模块在对抗训练中至关重要，促使生成器生成与真实数据无法区分的高保真音频频谱图。其设计融合了多尺度特征分析、梯度正则化和动态损失加权，旨在解决音频合成中常见的频谱伪影和训练不稳定问题。

生成器的目标是通过最大化生成频谱图被判别为真实的概率来欺骗判别器。该目标被形式化为非饱和损失：

其中表示判别器的输出 logit。
判别器通过加权的二元目标函数学习区分真实与生成的频谱图：

其中和表示动态加权。

在实验中，本文采用了一个在结构上与 Make-An-Audio2 中使用的 mel 频谱图编码器相似的 mel 编码器。该编码器由 32 层堆叠的 1D 卷积层组成。mel 解码器则采用转置卷积结构来重建 mel 频谱图，结构与编码器相对应。

多阶段步进优化策略

设计了一种步进优化策略，以通过逐步引入和调整各类损失项的影响来确保模型有效收敛，如下算法 2 所示。训练过程涉及以下损失项：、、和。变量 step 表示当前的训练步数。

初始阶段，模型仅使用进行训练。当 step 超过的指定起始步时，将引入训练过程，并随着训练的进行逐步增加其权重。当 step 超过指定的结束步时，的权重固定为。

类似地，当 step 超过和的指定起始步时，这些损失项也被加入训练过程，并在训练过程中逐步增加其权重。当 step 超过指定的结束步时，和的权重固定为。

在最终训练阶段，本文冻结音频编码器和 VAE，仅训练音频解码器和判别器。该专注优化通过微调声码器以更好地处理由音频解码器输出生成的 mel 频谱图，从而解决潜在的误差传播问题。

算法 2 概述了不同损失项按步引入及其相应权重调整的过程。该优化策略旨在通过在整个训练过程中逐步引入和调整各类损失项的影响，从而促进模型的有效收敛。

单声道转立体声

该过程使用 Mono2Stereo 模块将单声道 mel 频谱图转换为双通道 mel 频谱图。关键在于，该模块仅预测左右 mel 频谱图相对于单声道 mel 频谱图的比值。这种有针对性的预测显著降低了对数据的依赖性，并提升了训练的稳定性。最终，这些左右 mel 频谱图被声码器处理，以生成每个通道对应的波形，并在通道维度上拼接生成最终的立体声音频。

数据

概述

为了训练一个能够合成多样化和真实音效的多模态生成模型，构建一个覆盖面广且多模态之间高度对齐的大规模训练数据集是必要的。目前音效生成研究面临两个关键限制。首先，现有的大多数数据集规模相对较小，通常仅包含数万个音频样本，这不足以支持需要高度数据多样性的的大规模生成模型的训练。其次，这些数据集在模态结构上大多不完整——缺乏音频、视频和自然语言之间的对齐关系——这极大限制了模型有效利用条件输入的能力。例如，VGG-Sound 数据集包含音频-视频对，但仅提供粗略的类别标签，未包含对声音内容的自然语言描述。另一方面，诸如 AudioCaps、Clotho 和 WavCaps 等数据集主要关注音频与字幕的对齐，但不包含相关的视频流，因此不适合用于训练同时以视觉和语言为条件的生成模型。

为了解决这些挑战，本文从零开始构建了一个新的大规模多模态音效数据集，包含超过 1 亿个样本。每个样本包含一个原始视频片段、一个对应的单声道音频片段，以及一段结构化的音频文本描述。这三种模态高度对齐，均来源于真实世界的在线视频内容。

数据构建

在本工作中，本文构建了三种类型的配对数据：文本-音频、视频-音频，以及视频-文本-音频。本文的整体数据处理流程如下图 4 所示。

数据收集 声音合成模型的生成能力在很大程度上取决于训练数据中声音源的多样性以及语义标签的广度。为了确保覆盖面广，本文基于 AudioSet 本体中定义的层级结构构建标签集，从其前三层中选择类别。该本体提供了清晰的语义层级结构，为构建系统化的数据挖掘关键词词汇表提供了原则性基础。

利用该标签集，本文构建了一个关键词库以指导大规模检索过程。本文使用这些关键词在视频平台上进行检索，并基于标题、描述和标签等元数据筛选候选视频和频道，以确保语义相关性。为进一步增强长尾覆盖和内容多样性，本文补充了人工整理的资源以及现有开源数据集中的样本。最终得到的原始多模态数据作为本文数据集的基础，并随后经过专门的清洗流程，以确保模态之间的质量和对齐。

数据清洗 本文仅保留视频分辨率高于 720P 且仅包含少量字幕的数据，并统一将音频转换为采样率为 44k、16 位深度、立体声通道的 WAV 格式。对于音频，本文基于 SNR、MOS 分数、削波率和音频带宽进行质量过滤。本文使用 VAD 选择静音比例小于 0.2 的音频数据。本文使用 CLAP 模型计算音频与文本标签之间的一致性，仅保留一致性高的数据。最后，本文将较长的视频和音频划分为 10 秒的片段。

数据增强 对于较短的数据，本文将较短的视频和音频拼接以获得时长为 10 秒的数据，这使得模型能够更好地响应动态的视觉输入。为了增强模型的时间对齐能力，本文引入了时间数据增强，通过根据不同的时间规则拼接单事件的视频和音频片段，以生成多事件数据。与时间增强视频和音频对应的文本描述通过合并原始单事件数据的文本描述获得。此外，本文从音频中提取关键信息，如声音源、物体、场景、情绪、性别、动作和修饰词。结合大模型和提取的关键词，本文将非结构化的原始文本描述转化为语义完整的自然语言描述。

文本描述提取 视频和音频通常可以生成包含不同信息的文本描述。为了获得尽可能准确、详细和完整的文本描述，本文利用视频和音频共同生成最终的文本描述。首先，本文使用音频分类模型对视频和音频进行分类，保留四类数据及其对应的类别标签：音效、音乐、语音和歌唱。对于不同类别的数据，本文使用相应的音频理解大模型从音频中提取音频文本描述，同时从视频中提取视频文本描述。随后，本文将音频描述、视频描述以及增强后的自然语言文本描述输入大模型，获得最终融合的文本描述。

训练数据 如下图 5 所示，本文可视化了训练集中高层次声音类别的分布。本文的训练数据包含文本-音频、视频-音频和视频-文本-音频三种类型的配对数据。本文的数据集涵盖了各种真实世界的声学场景，包括自然环境、人类活动、动物声音、机械操作和交通运输，为学习多样化的生成模式和提升合成音频的真实感与可控性提供了坚实基础。

基准数据集

目前已有多个音频-视觉数据集被提出用于支持与声音相关的任务，如下表 1 所示。AudioSet 是最大的通用音频数据集之一，但其对人工标注的高度依赖导致构建成本较高。VGGSound 通过音频-视觉对齐提升了可扩展性，使其在声音生成评估中更具实用性。EPIC-SOUNDS 聚焦于音频驱动的动作，提供精确的时间边界和细粒度标签。

然而，这些数据集的一个共同限制是缺乏对音频和视频模态的文本描述（字幕），这限制了在支持字幕或文本条件生成场景中的全面评估。为了解决这一问题，一个常见的解决方案是引入额外的音频-文本测试集，如 Clotho 和 AudioCaps。尽管 Clotho 提供了高质量的字幕，但其规模有限。AudioCaps 提供了更多的标注样本，但仅覆盖音频模态，缺乏视频上下文。WavCaps 虽然规模较大，但标签较弱，不适合用于评估。

尽管已有这些努力，仍然没有一个能够联合支持视觉、音频和语言模态的基准用于评估音效生成。为填补这一空白，本文引入 Kling-Audio-Eval —— 首个高质量的多模态基准，结合了视频、视频字幕、音频、音频字幕和声音事件标签。 本文通过精心设计的分类体系和广泛的人工标注构建该数据集，使其能够在多模态和多种生成任务中实现稳健评估。

基于现有的声音库和内部统计数据，本文选取了出现频率最高的 1,000 个三级标签。这些标签的选择旨在确保涵盖所有一级和二级类别，提供广泛的内容表示。在经过严格的数据清洗流程后，本文从这些类别中选取了 30,000 个样本，每个样本都包含预生成的字幕和声音事件标签，用于进一步的人类验证和标注。

人工标注过程涵盖四个主要方面：音频字幕、视频字幕、声音事件标签以及音视频质量评估，旨在确保一致性、准确性和实际可用性。具体的标注指南如下：

字幕修正：审查预生成的音频和视频字幕，并使用简洁清晰的语言修改其中的错误或遗漏。
模态独立性：确保音频和视频字幕是独立标注的。例如，音频字幕不应依赖视觉信息，反之亦然。
标签验证：检查分配的一级和二级标签是否与实际内容匹配。如不匹配，则从预定义的分类体系中选择正确的标签。
有效样本筛选：仅保留符合以下条件的音视频片段：(i) 前景音频不得包含人声；(ii) 音效必须来源于任务或物体，而语音、歌唱和音乐声音必须由视频中可见个体发出；(iii) 视频时长必须不少于 5 秒，音效持续时间不少于 2 秒；(iv) 仅允许环境中的画外音，如森林场景中的鸟鸣；(v) 视频可以包含水印、标志或字幕；(vi) 背景音乐不得包含人声。

最终，本文共收集了 20,935 个高质量样本组成最终测试集，原始的 1,000 个三级标签被进一步细化为 1,919 个。类别分布如下图 6 所示。

实验与结果

实验设置

本文与以下方法进行了对比评估：V2A-Mapper 将 CLIP 的视觉嵌入映射到 CLAP 的音频-文本空间，以实现基于 AudioLDM 的生成；FoleyCrafter 引入时间条件估计器以提升时间连贯性；VATT 和 VTA-LDM 采用基于 Transformer 的架构进行视频、音频和文本的联合表示学习；V-AURA 在自回归融合框架中使用高帧率视觉编码器（比以往工作高 6 倍）以增强对运动的敏感性；为提升效率，FRIEREN 引入了带有再流和一步蒸馏的修正流匹配；MMAudio 通过在 VGGSound 和 WavCaps 上训练的多模态 Transformer 实现音频-视觉与音频-文本数据训练的统一。MMAudio 的结果来自使用开源模型推理生成的音频结果。最后，ReWaS 通过引入基于能量的约束和手工设计的音频特征来解决跨模态间隙问题。

训练策略

学习率调度。 本文采用具有指数预热的平滑反向衰减调度策略。第步的学习率为：

其中，控制衰减速度，决定衰减的曲率，使得在训练初期能够实现平滑的指数增长。操作用于确保学习率不会低于指定的。InverseLR 调度器提供了一个连续、平滑的衰减过程，更贴合训练动态。这不仅加快了收敛速度，还提升了在多样且复杂的多模态训练场景中的稳定性。

缩放策略。本文通过将模型容量从 15 亿参数逐步增加到 60 亿参数，研究模型缩放对多模态音频-语言学习的影响。受经验缩放法则的启发，本文沿三个维度对模型进行缩放——深度、隐藏维度和注意力头数，同时保持一致的结构比例。

形式上，本文遵循如下参数化：

其中，是控制注意力头数与深度比率的缩放因子。这确保了在注意力模块和 MLP 模块之间的计算资源得到平衡利用。

本文的基础模型使用了 17 个注意力头和深度为 23（共 15 亿参数），而 30 亿和 60 亿参数的变体将注意力头数分别增加到 23 和 32，深度保持一致为 27，从而扩展了模型的宽度和整体表征能力。

目标指标

按照 MMAudio 中的设置，本文在 VGGSound 测试集（15,220 个样本）上，从四个维度对本文的模型与选定的基线方法进行评估。结果如下表所示。

V2A 所采用的目标指标如下：

FD（Fréchet Distance）：该指标评估生成音频特征与真实音频特征分布之间的相似性。它基于预训练音频分类器 PANNs 的特征嵌入计算。FD 值越低，表示生成特征分布越接近真实分布，保真度越高。
KL（Kullback-Leibler 散度）：KL 散度衡量生成音频事件分布与真实音频事件分布之间的差异。它通过预训练分类器 PANNs 的输出预测结果计算。分数越低越好，表示生成音频的事件分布越接近参考音频。
ImageBind Score（IB-score）：该指标评估视频与其生成音频之间的语义一致性。它利用统一的 ImageBind 模型，计算视频模态与音频模态提取特征的余弦相似度。得分越高表示跨模态语义一致性越好。
DeSync Score：该指标通过预测视觉流与生成音频之间的时间错位，量化音视频同步性。它使用 Synchformer 模型输出预测的时间偏移（单位为秒）。绝对值越小表示同步效果越好。

为了全面评估本文的潜在音频编解码器能力，本文与 MMAudio 进行了直接对比。该对比涵盖四个不同任务：音效、音乐、语音和歌唱。每个任务测试 500 个域外音频样本，总计 2,000 个测试用例，以确保评估的鲁棒性。具体而言，对于音效、音乐和语音场景，本文使用 Codec-SUPERB @ SLT 2024 挑战赛的评估集，而歌唱任务则基于本文内部构建的专有数据集进行评估。

潜在音频编解码器所采用的目标指标如下：

PESQ（Perceptual Evaluation of Speech Quality）：该指标在到的范围内评估语音的感知质量。它旨在模拟主观评分，是衡量人类感知的有效指标。分数越高越好。本文在语音和歌唱任务中报告该指标。
SI-SDR（Scale-Invariant Signal-to-Distortion Ratio）：SI-SDR 衡量时域中波形的保真度，不受整体信号幅度的影响。它提供对信号重建质量的稳健评估。数值越高越好。
SDR（Signal-to-Distortion Ratio）：该指标量化原始信号功率与重建误差功率之比，是衡量失真程度的基本指标。数值越高表示信号完整性越好。
LSD（Log-Spectral Distance）：LSD 通过计算生成音频与参考音频对数功率谱之间的误差，评估频率内容的差异。值越低表示频谱包络越准确。
MCD（Mel-Cepstral Distortion）：MCD 衡量梅尔频率倒谱系数之间的距离，是评估音色纹理和人声自然度的重要指标，与人类听觉高度相关。值越低越好。
Mel Loss 与 STFT Loss：这两个指标通过计算预测与真实声谱图（分别为 Mel 和 STFT）之间的 L1 距离，直接量化频谱层级的重建误差。值越低表示对底层频谱结构的重建越准确。

推理优化

推理过程中使用了静态计算图技术，例如 torch.compile 的 JIT 编译，以实现加速。本文需要保持固定的输入形状，对于较短的输入，则采用填充方式处理。接下来，将原始的 Conv1d 卷积核分解为若干个大小等于核尺寸的线性层，将卷积操作转换为多个小矩阵乘法（GEMM）。这使得本文可以利用如 cuBLAS 等高度优化的基础线性代数子程序库。

实验结果

视频转音频（Video-to-Audio）：潜在音频编解码器的结果展示在上表 2 中。分布匹配指的是生成音频与真实音频在特征空间中的分布相似度。本文使用 FDPANNs 和 KLPANNs 作为衡量指标（值越低越好）。在 Kling-Foley 模型中，FDPANNs 值为，仅次于 MMAudio。VATT 的 KLPANNs 表现明显优于其他模型。然而，Kling-Foley 的 KLPANN 值为，也优于大多数基线模型，例如 ReWaS 的 KLPANNs 为。在分布匹配指标方面，MMAudio 模型也取得了较好成绩，主要原因是视频数据集基本来源于 VGGSound 的训练集，因此生成音频的分布与原始音频较为接近。

语义对齐衡量生成音频与视频内容之间的语义一致性，使用 IB-score（分数越高越好）作为指标。Kling-Foley 获得了的 IB-score，超过了 MMAudio 的和 V-AURA 的。这表明本文的模型具备最强的语义理解能力。原因在于本文采用了 Metaclip，它提供了更强的视觉语义理解能力。同时本文还使用了 T5-base 模型，该模型在文本语义理解方面表现优越。

时间对齐评估音频和视频事件之间的同步性，主要指标为 DeSync（值越低越好）。Kling-Foley 的结果为，略优于 MMAudio，且显著优于其他模型。例如，VATT 的 DeSync 值为。这得益于本文实现了更精细的时间对齐模块。

潜在音频编解码器（Latent Audio Codec）：潜在音频编解码器的结果展示在下表 3 中，本文的模型在四个任务上与 MMAudio 基线进行对比。数据呈现出一致的趋势：本文提出的模型在所有场景中均表现出更优或高度竞争的性能。

一个关键发现是，本文的模型在感知质量和信号保真度等关键指标上始终具有优势，如 PESQ、SDR，尤其是 MCD。这表明本文的方法更有效地生成了不仅在频谱上准确，而且在感知上更接近真实参考的音频。

具体而言，在音效、歌唱和语音任务中，本文的模型在几乎所有指标上都超过了基线模型，尤其是在感知质量方面取得了显著提升（例如，语音任务中 PESQ 为，而基线为），以及音色准确性方面（例如，歌唱任务中 MCD 为，而基线为）。在音乐生成方面，尽管 MMAudio 在直接频谱重建损失（Mel/STFT Loss）上具有竞争力，但本文的模型在更具感知意义的 SDR 和 MCD 指标上表现更佳，说明其在复杂音乐纹理合成方面更为真实。

综上，这些结果验证了本文提出的模型在高质量、多领域音频生成任务中的有效性和鲁棒性。

结论

在本研究中，本文提出了 Kling-Foley，这是一个用于高质量视频转音频生成的全新多模态框架，能够实现音频输出与视觉内容之间的同步。此外，本文还通过发布 Kling-Audio-Eval，填补了评估资源方面的重要空白。该基准是首个工业级多模态评估集，涵盖九类声音场景，包含个人工标注样本，提供了完整的视频-音频-文本注释，用于严谨评估。

大量实验证明，Kling-Foley 在大多数指标上均达到了 SOTA 性能：音频质量、分布匹配、语义对齐以及音视频同步。未来的工作将致力于扩展该框架以支持更长的视频序列，并增强复杂听觉场景中的跨模态对齐能力。

限制、伦理与安全

Kling-Foley 通过多模态对齐与立体声渲染技术提供了一种工业级解决方案。它替代了传统拟音艺术家手工标注的流程，显著降低了视频配音的时间与经济成本。跨模态音频序列表示支持对音效、语音与音乐混合场景的统一建模，适用于游戏、虚拟直播等交互式媒体。结合文本条件，可精准控制音效语义（如"玻璃破碎 + 从远到近"），提供精细化的音效生成能力。支持对特定方向运动目标（如车辆驶过、鸟类轨迹）的立体空间渲染，增强影视作品的沉浸感。

限制
尽管模型性能领先，仍存在以下技术瓶颈：复杂物理过程建模不足，多物体交互音效（如人群交谈中的分层语音、物体碰撞的连锁反应）生成保真度较低，易出现声学逻辑错误。长时依赖挑战：由于流匹配训练对长时间关系的建模能力有限，超过秒的视频片段可能出现音视频同步漂移问题。尽管工业级基准数据集弥补了标注不足，但在小众场景（如文物修复、外科手术）中的音效质量因训练样本不足而波动较大。

伦理
强调 Kling-Foley 是拟音艺术家的辅助工具，而非替代品。模型生成的音效在商业使用前必须经过人工审核，以避免技术对传统拟音行业造成冲击。使用数据增强技术平衡来自不同文化背景的音效样本，避免模型对特定音色或场景的偏见（如默认将爆炸声与男性解说关联）。开放文本输入接口，允许用户手动调整音效风格，减少模型内置偏差对创作的影响。

安全
鉴于音效滥用可能带来的社会危害，本文在相关产品中实施了多项安全机制，以防止模型在开发及潜在部署过程中的滥用。本文还实施了多级水印方案，强制在内容创作的各个环节嵌入水印，例如在生成音效的频谱中嵌入不可见水印，支持通过自研工具追踪内容来源，并同步生成视觉水印，以防止深度伪造视频的滥用。此外，禁止生成可能引发公众恐慌的音效（如大规模爆炸、警报声），除非在影视制作等特定场景中获得合规审批。

参考文献

[1] Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年6月28日星期六

音画同步新纪元！快手Kling-Foley颠覆视频创作：秒级生成好莱坞级音效+人声BGM！