论文名:JavisDiT: Joint Audio-Video Diffusion Transformer
论文名:JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization
论文链接:https://arxiv.org/pdf/2503.23377
开源代码:https://javisdit.github.io/
导读
在人工智能生成内容(AIGC)领域,图像、视频和音频等多模态内容的生成最近受到了前所未有的关注,其中基于扩散的模型表现出了卓越的性能。虽然早期的工作主要集中在生成单模态内容,但现在人们对同时生成多种模态的内容越来越感兴趣。值得注意的是,同步音频和视频生成已成为一个关键的研究领域。在大多数现实世界场景中,音频和视频本质上是相互关联的,这使得它们的联合生成在电影制作和短视频创作等应用中具有很高的价值。当前同步音频 - 视频生成的方法大致可分为两类。第一类涉及异步管道,即先生成音频,然后用它来合成视频,或者反之。第二类涉及端到端的联合音频 - 视频生成(即 JAVG),它通过避免级联噪声积累吸引了更多的研究关注。总体而言,人们普遍强烈认为,实现高质量的 JAVG 需要两个同样关键的标准:(1)确保音频和视频的高质量生成,以及(2)保持两种模态之间的完美同步。
简介
本文介绍了 JavisDiT,这是一种专为同步音频 - 视频生成(JAVG)设计的新型联合音频 - 视频扩散变压器。基于强大的扩散变压器(DiT)架构构建,JavisDiT 能够根据开放式用户提示同时生成高质量的音频和视频内容。为确保最佳同步,我们通过分层时空同步先验(HiST - Sypo)估计器引入了一种细粒度的时空对齐机制。该模块提取全局和细粒度的时空先验,指导视觉和听觉组件之间的同步。此外,我们提出了一个新的基准 JavisBench,它由 10140 个高质量的带文字说明的有声视频组成,涵盖了各种场景和复杂的现实世界场景。此外,我们专门设计了一种稳健的指标,用于评估现实世界复杂内容中生成的音频 - 视频对之间的同步性。实验结果表明,JavisDiT 通过确保高质量生成和精确同步,显著优于现有方法,为 JAVG 任务树立了新的标准。
方法与模型
1. JavisDiT模型架构
图2。左侧展示了我们的JavisDiT [18]系统基于扩散变压器(DiT)的整体有声视频生成架构,包括视频生成分支、音频生成分支和多模态双向交叉注意力(MM - BiCrossAttn)模块。右侧说明了时空自注意力(ST Self - Attn)、细粒度时空交叉注意力(Fine - grained ST - CrossAttn)和多模态双向交叉注意力(MM - BiCrossAttn)的详细结构设计。
图2展示了整体架构。时空注意力机制用于有效的跨模态对齐,同时确保视频和音频的高质量生成。每个分支使用时空自注意力(ST - SelfAttn)进行模态内聚合,通过交叉注意力(CrossAttn)融入粗略的文本语义,通过时空交叉注意力(ST - CrossAttn)整合细粒度的时空先验信息,并使用 -交叉注意力增强视频 - 音频融合。在此,我们介绍图2(b)中展示的核心组件:
时空自注意力。鉴于视频和音频都具有空间和时间属性[42],我们采用级联的时空自注意力机制进行模态内信息聚合。如图2(b)所示,多头自注意力(MHSA)沿着空间 和时间 维度依次应用于 。这以较低的计算成本有效地实现了细粒度的时空建模。
时空交叉注意力。对于文本提示 ,我们通过时空先验估计器(详细内容见3.2节)使用 和 个可学习的 维令牌来估计空间和时间先验信息。如图2(b)所示,空间和时间先验信息在两个分支中沿着空间和时间维度引导交叉注意力,从而为视频 - 音频同步实现统一的、细粒度的条件控制。
跨模态双向注意力。在使用时空先验信息对齐视频和音频后,我们引入了一个双向注意力模块[28]以实现直接的跨模态交互。如图2(b)所示,在计算 和 之间的注意力矩阵 后,我们首先将 与 相乘,以获得从音频到视频的交叉注意力。类似地,将 ( 的转置)与 相乘可得到从视频到音频的交叉注意力。这种机制增强了跨模态信息聚合,有助于实现高质量的联合音频 - 视频生成。
2. 分层时空先验
与以往的工作不同,我们的JavisDiT从文本中推导出两个分层条件(先验信息):用于粗略事件提示(是什么)的全局语义先验信息,以及用于指定事件时间和位置(何时何地)的细粒度时空先验信息(ST - 先验),从而实现生成的视频和音频之间的精确同步。
粗粒度时空先验。由于T5编码器[37]的默认语义嵌入足以粗略描述整体发声事件,我们直接复用T5嵌入作为我们的粗粒度时空先验信息(或语义先验信息)。
细粒度时空先验。文本输入通常提供事件的粗粒度描述,例如"一辆汽车启动引擎并离开屏幕"。为了实现细粒度的条件控制,我们估计时空先验信息:空间先验信息指定事件发生的位置(例如,"汽车在屏幕的左上角"),时间先验信息定义事件的开始和结束时间(例如,"声音在2秒开始,7秒结束,在 时渐弱")。我们没有从大语言模型(LLMs)[27]生成显式提示,而是将时空先验信息有效地估计为潜在令牌条件,以指导扩散过程。
图3. 具有4层Transformer编解码器的时空先验估计器框架(参考紫色区域)。采用对比学习来优化该估计器。
细粒度时空先验估计。如图3所示,对于给定的文本输入 ,我们利用ImageBind [11]文本编码器的77个隐藏状态,并使用 个空间标记 和 个时间标记 来查询一个4层的Transformer ,以提取时空信息。由于输入的文本提示通常可能不会指定事件发生的时间和地点,事件几乎可以在任意位置和时间发生和结束,并且相同的文本 应相应地产生不同的时空先验 。为了捕捉这种可变性,我们的时空先验估计器 输出一个高斯分布的均值和方差,并从中采样出一个合理的 : ,其中 是高斯噪声。此外,我们精心设计了一种对比学习方法来学习一个鲁棒的时空先验估计器,该方法涉及一系列负样本(异步视频 - 音频对)构建策略和专门设计的损失函数。实现细节见附录C.2。
3. 多阶段训练策略
我们的JavisDiT专注于两个核心目标:实现高质量的单模态生成,并确保生成的视频和音频之间的细粒度时空对齐。为此,我们利用OpenSora [65]的预训练权重用于视频分支,并采用三阶段训练策略进行鲁棒的视频 - 音频联合生成:
音频预训练。我们用OpenSora视频分支的权重初始化音频分支,并在大规模音频数据集( 个样本)上进行训练,以确保卓越的单模态生成质量。
时空先验训练。我们使用 个同步的文本 - 视频 - 音频三元组和合成的异步负样本训练时空先验估计器 。此阶段可以与第一阶段同时进行。
联合生成。我们冻结视频和音频分支的自注意力块以及时空先验估计器,仅使用 个样本训练时空交叉注意力(ST - CrossAttn)和双向交叉注意力(Bi - CrossAttn)模块,以实现同步的视频 - 音频生成。
此外,配备了动态时间掩码 [65] ,以使JavisDiT能够灵活适应x条件任务(视频到音频/音频到视频生成、图像动画、视频 - 音频扩展等)。详细信息见附录F。
4. 具有挑战性的JavisBench基准测试
一个强大的生成模型必须确保视频内容、音频类型的多样性以及细粒度的时空同步。然而,当前的联合音频视频生成(JAVG)基准测试可能缺乏全面评估所需的多样性和鲁棒性(如附录D.1所示)。为了克服这一缺点,我们提出了一个更具挑战性的基准测试,以及一个用于评估时空对齐的鲁棒指标。
4.1. 数据构建
分类体系。为了评估联合视频 - 音频生成模型的能力,我们从粗到细设计了五个评估维度:
事件场景描述了视听事件发生的主要场景,例如自然场景或工业场景。
视频风格描述了给定视频的视觉风格,例如相机拍摄或二维动画。
声音类型:给定音频的发声类型,例如音效或音乐。
空间构成定义了视频和音频中出现的发声主体,根据存在的单个或多个发声主体进行划分。
时间构成描述了视频 - 音频对中事件的开始和结束,通过依次或同时出现的单个或多个发声源来区分。
我们使用GPT - 4 [1]开发了一个包含5个维度和19个类别的分层分类系统(图4),详细定义见附录D.2。
数据整理。有两个数据源:(1)现有数据集的测试集(例如,Landscape/AIST++和FAVD - Bench [46]),以及(2)2024年6月至12月上传的YouTube视频,以防止数据泄露[31]。为了收集YouTube视频,我们提示GPT - 4使用我们定义的分类体系生成特定类别的关键词,从而实现高效、有针对性的视频收集,同时避免噪声数据。经过严格的人工法律和道德验证(见附录A),上述过程产生了约个发声视频候选。使用多种过滤工具确保质量和多样性后,我们使用先进的Qwen系列模型生成字幕,并将视频 - 音频对分类到所需的分类体系中,最终为JavisBench - 整理出10140个多样且高质量的视频 - 音频对。关于数据构建的更多细节见附录D.3。我们还随机选择了1000个样本,形成JavisBench - mini版本,以便进行高效评估。
表1. 与现有基准测试的比较。TAVG - Bench [31]的评估集目前尚未发布(未知)。
基准统计。表1突出了JavisBench的贡献:(1)与AIST++ [22]和Landscape [21]相比,提供了更多样化的数据;(2)提供了详细的分类体系,用于全面评估,超越了TAVGBench [31]。如图4所示,JavisBench涵盖了多样的事件场景、视觉风格和音频类型,确保了更广泛的多样性的均衡分布。我们还纳入了代表性不足的场景,如二维/三维动画(25%)和工业事件(13%),以实现更真实的基准测试。75%的样本具有多个发声主体,28%涉及顺序事件,57%包含同时发生的事件,这对生成模型提出了挑战。
图4. 我们的基准测试的类别分布。
4.2. JavisScore:一种更稳健的联合视听生成(JAVG)指标
动机。AV - Align [60]是一种广泛采用的JAVG指标,它使用视频光流估计来匹配音频中检测到的起始点,以测量视频 - 音频同步性。然而,AV - Align在复杂场景(即具有多个发声事件或微妙视觉运动的场景)中可能会遇到困难,并产生误导性结果(见附录D.4)。因此,我们提出了一种更稳健的评估指标,即JavisScore,用于在多样的现实世界环境中测量视觉 - 音频同步性。
实现与验证。从技术上讲,我们将每个视频 - 音频对分割成若干个窗口大小为2秒、重叠1.5秒的片段,使用ImageBind [11]计算每个片段的视听同步性,并将得分平均作为最终指标:
其中和是视觉和音频编码器,和是第个窗口中的音频和视频片段,是专门为视频 - 音频片段设计的同步度量。受Mao等人[31]的启发,我们计算每个片段内所有帧与音频之间的相似度,并选择个最不同步的帧来获得当前窗口的得分。附录D.4提供了更多细节和讨论,我们还构建了一个包含3000个样本的人工标注评估数据集,以验证我们的JavisScore相对于先前指标的有效性。
实验与结果
1. 实验设置与实现
本部分介绍主要的实验设置,详细配置见附录C.1。
评估数据集。我们主要使用所提出的JavisBench(贾维斯基准)作为评估数据集,以便进行全面且广泛的模型比较。此外,为了与先前的研究保持一致,我们还在AIST++ [22]和landscape(风景) [21]数据集上进行了评估。
评估指标。对于JavisBench,我们从四个维度采用多个指标:(1)单模态生成质量;(2)条件文本与生成的视频/音频之间的语义一致性;(3)语义一致性;(4)视频和音频之间的时空同步性。对于AIST++/Landscape数据集,我们遵循先前的研究[42, 48],并报告FVD、KVD和FAD指标。
对比方法。为了在JavisBench上评估音频 - 视频生成性能,我们复现并比较了一系列基线模型:(1)对于级联的文本到音频(T2A)+音频到视频(A2V)方法[18, 60],我们使用AudioLDM2 [27]进行前置的T2A任务;(2)对于级联的文本到视频(T2V)+视频到音频(V2A)方法[19, 56, 63],首先采用OpenSora [65]生成视频;(3)对于联合音频 - 视频生成(JAVG)模型,由于其他模型[26, 48, 51, 64]目前未开源,我们目前仅与MM - Diffusion [42]进行比较。对于AIST++和Landscape数据集,我们直接采用先前研究中报告的结果进行对比。
实现细节。我们从多个来源收集了个音频 - 文本对,进行13个轮次(epoch)的音频相关训练,使用来自MMTrail [4]和TAVGBench [31]的个视频 - 音频 - 文本三元组,对时空先验估计器(ST - Prior Estimator)训练1个轮次,对JavisDiT训练2个轮次。时空先验估计器的学习率为1e - 5,DiT的学习率为1e - 4。我们遵循Zheng等人[65]的方法,采用分桶策略(bucketing strategy),以批量方式支持动态视频分辨率(从144P到1080P)和音频时长(从2秒到16秒),大大提高了推理过程中的应用灵活性。
2. 主要结果与观察
表2. 所提出的JavisBench(贾维斯基准)上的主要结果。我们的方法全面优于或与当前可用的音频/视频生成模型相当。所有模型均以240P/24fps生成4秒的有声视频,音频为 。
我们的JavisDiT实现了卓越的单模态质量和视频 - 音频同步性。如表2所示,我们精心设计的时空扩散变压器(DiT)架构展现出了出色的单模态生成质量,与基于U型网络(UNet)的架构(例如TempoToken [60])和简单的DiT架构(例如MM - 扩散模型 [42])相比,取得了显著更优的结果,其弗雷歇视频距离(FVD)得分为203.2,弗雷歇音频距离(FAD)得分为6.9。同时,从全局语义对齐的角度来看,包括文本一致性和视频 - 音频一致性,我们的模型也达到了当前最优性能,其文本 - 音频信息瓶颈(TA - IB)得分为0.151,对比语言 - 图像预训练模型(CLIP)相似度得分为0.325。图6展示了一些具有代表性的联合音频 - 视频生成(JAVG)示例。值得注意的是,在音频 - 视频同步方面,我们的模型优于各种级联和联合音频 - 视频生成方法,Javis分数达到0.158,超过了当前最优的级联方法FoleyCrafter [63]。
图6. JavisDiT能够精确捕捉文本输入中的视觉和听觉线索,生成具有高质量时空对齐的逼真有声视频。彩色文本表示时空对象(带下划线)和动作。更多示例见附录E.4。
为了确保进行严谨的模型比较,我们遵循先前工作中的标准设置,并在两个封闭集数据集(包括风景数据集 [21] 和AIST++数据集 [22])上对我们的模型进行300个训练周期的训练。如表3所示,我们的方法始终能达到当前最优性能,在风景数据集上的FVD为94.2,在AIST++数据集上的FAD为9.6。这些结果进一步凸显了我们精心设计的DiT架构和分层时空先验估计器的优越性。
表3. 先前数据集上的实验结果。数据取自已发表的论文。
当前模型无法模拟复杂场景。图5展示了两种具有代表性的方法(FoleyCrafter [63] 和我们的JavisDiT)在Javis基准测试各类别中的表现,表明包括我们的模型在内的现有模型在复杂场景下的音频 - 视频同步方面存在困难。当发声视频仅包含单个发声对象(例如一个人独自拉小提琴)时,Javis分数通常比多对象情况(例如有多个音乐家的街头表演)更高,因为后者需要识别正确的视觉 - 音频对应关系。同样,具有多个同时发生事件的视频(例如一只狗在汽车鸣笛时吠叫)的Javis分数低于单事件情况(例如一个人鼓掌),这是因为对事件时间和交互进行建模的挑战增加了。附录D. 5和图A7全面凸显了当前JAVG在处理现实世界复杂性方面的局限性。
图5. 与JavisBench分类法的视频 - 音频同步性。当前的最优模型在具有挑战性的场景下仍存在问题
3. 深入分析与讨论
为了有效评估我们提出的方法,我们使用整个训练数据中的一个包含 条目的子集进行第三阶段(JAVG)训练,并在 JavisBench - 迷你数据集(从 Javis - Bench 中随机选取 1000 个样本)上测试模型。为简单起见,我们从三个维度报告三个归一化分数以便进行清晰的比较:
视听质量:
视听一致性:
视听同步性:
表4. 对我们的JavisDiT模块组件的消融实验。专门设计的DiT架构和时空先验共同有助于单模态质量和视频 - 音频同步性。
精心设计的 DiT 骨干网络表现更优。在表 4 中,我们首先构建了一个普通基线,用 UNet [27] 替换音频分支的时空自注意力(ST - SA)骨干网络,生成的视听质量得分低至 9.371。用 ST - SA 模块 [65] 替换 UNet 骨干网络后, 立即提高到 7.293,这证明了 ST - DiT 架构的有效性。然后,我们分别将时空交叉注意力(ST - CA)与我们的 ST - 先验以及双向交叉注意力(Bi - CA)模块结合用于视频 - 音频信息共享。相应地,ST - CA 在视听一致性(1.191 对比 1.155)和视听同步性(0.167 对比 0.144)方面带来了显著提升,优于简单的 Bi - CA 模块( 为 1.157 对比 1.155, 为 0.149 对比 0.144)。这验证了我们的观点,即 AV - DiT [51] 中简单的通道共享机制无法有效实现视听同步,而我们提出的细粒度 ST - 先验引导可以实现这一点。在连接 ST - SA、ST - CA 和 Bi - CA 模块后,我们的 JavisDiT 在单模态质量 6.012)和视频 - 音频同步 和 )方面都达到了最佳性能,证明了精心设计的 DiT 骨干网络的优越性。
表 5. 关于令牌数量和 ST - 先验利用的消融实验。我们在图 A8 和表 A6 中提供了更多实验结果。
时空先验有效且通用。在表5中,我们初步探究了时空先验的数量以及利用时空先验(ST-Priors)实现更好的视频 - 音频同步的方法。我们首先将没有时空交叉注意力(ST-CA)模块的模型(表4中的第4行)作为基线(表5中的第1行),并通过将先验数量从1逐渐增加到32来添加ST-CA模块。根据结果,随着先验数量的增加,单模态质量 以及视频 - 音频同步性 和 持续提升。然后,我们尝试利用32个时空先验进行加法操作(像条件嵌入一样添加到视频/音频潜在表示中)和调制操作(将先验映射到尺度和偏置以调制视频/音频表示)。尽管最终性能不如使用交叉注意力,但时空先验仍显著提升了所有指标(例如, 的值从0.149提升到0.159/0.161)。此外,我们在图A8中进一步实验并评估了先验数量和维度的影响,并在表A6中验证了时空先验估计过程中的优化目标。所有实证结果都验证了我们估计的时空先验的有效性和通用性。
图7. 基于时空先验的交叉注意力图可视化。空间先验成功捕捉到发声主体(在本例中为气泡),时间先验准确覆盖了连续发声事件的整个时间线。
时空先验如何确保视频和音频同步?图7展示了我们的时空先验引导视频 - 音频生成过程的同步机制。具体而言,我们可视化了JavisDiT最后一个采样步骤中最后一个块在视频和音频分支上的时空交叉注意力图。图7中的定性结果表明,空间先验成功帮助JavisDiT聚焦于会产生声音的主体(在这种情况下,是气泡而不是潜水员会发出声音),而时间先验使时间轴上的注意力得分近乎均匀(因为气泡声从头到尾持续不断)。时空先验的交叉注意力机制在同步视频 - 音频生成方面得到了很好的学习。
总结
本文提出了 JavisDiT,一种新颖的联合音频 - 视频扩散变压器(Joint Audio - Video Diffusion Transformer),它能够同时生成高质量且精确同步的音频和视频内容。我们引入了 HiST - Sypo 估计器,这是一个细粒度的时空对齐模块,用于提取全局和细粒度先验,以指导音频和视频之间的同步。我们还提出了 JavisBench 数据集,该数据集包含 10140 个高质量的带文本字幕的发声视频,具有多样化的场景和真实世界的复杂性,解决了当前基准的局限性。此外,我们引入了一种时间感知语义对齐机制,以更好地评估复杂内容上的 JAVG 系统。实验结果表明,JavisDiT 在内容生成和同步方面均优于现有方法,为 JAVG 任务树立了新的基准。附录 B 讨论了潜在的局限性和未来的工作。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论