香港科技大学和月之暗面联合提出的专门用于从任意内容生成音频和音 乐模型AudioX。该模型能处理多种输入模态,包括文本、视频、图像、音乐和音频,生成高质量的音频输出。核心创新在于多模态掩码训练策略,通过随机掩码输入模态,迫使模型从不完整的输入中学习,增强跨模态表示能力。
AudioX的主要功能
多模态输入支持
文本到音频:根据文本描述生成相应音效。 视频到音频:根据视频内容生成与之匹配音效。 图像到音频:根据图像内容生成相应音效。 音乐生成:根据文本描述或视频内容生成音乐。 音频修复:根据上下文信息修复音频中缺失部分。 音乐补全:根据给定的音乐片段生成后续部分。
高质量音频生成
AudioX使用扩散模型(Diffusion Model)技术,i能生成高质量、高保真的音频和音乐,确保生成的音频在音质和细节上接近真实音频。
灵活的自然语言控制
用户可以通过自然语言描述来精确控制制生成的音频内容。例如,用户可以指定音效的类型音乐的风格、乐器的使用等,使生成的音频更符合需求。
跨模态学习能力
AudioX能处理多种模态的输入,将它们有效整合,生成与输入条件一致的音频。例如,同时输入文本和视频,模型可以综合考虑两者的语义信息,生成更贴合场景的音频。
强大的泛化能力
在多个数据集和任务上表现出色,包括AudioCapS、VGGSound、MusicCaps、V2M-bench等,证明了其在不同场景下的泛化能力和适应性。
零样本生成能力
没有针对特定模态(如图像)的专门训练,AudioX能在零样本条件下生成高质量的音频,展示了强大的通用生成能力。
相关链接
项目: https://zeyuet.github.io/AudioX 代码: https://github.com/ZeyueT/AudioX 论文: https://arxiv.org/pdf/2503.10522
论文介绍
音频和音乐生成已成为许多应用中的关键任务,但现有方法面临着重大限制:它们孤立地运行,没有跨模态的统一能力,缺乏高质量的多模态训练数据,并且难以有效地整合不同的输入。
在这项工作提出了 AudioX,这是一个用于任何音频和音乐生成的统一扩散变换器模型。与以前的领域特定模型不同,AudioX 可以生成高质量的一般音频和音乐,同时提供灵活的自然语言控制和对各种模态(包括文本、视频、图像、音乐和音频)的无缝处理。它的关键创新是一种多模态掩蔽训练策略,该策略可以掩蔽跨模态的输入并迫使模型从掩蔽的输入中学习,从而产生强大而统一的跨模态表示。
为了解决数据稀缺问题,作者整理了两个综合数据集:基于 VGGSound 数据集的 190K 音频字幕的 vggsound-caps,以及从 V2M 数据集派生的 600 万个音乐字幕的 V2M-caps。大量实验表明,AudioX 不仅能匹敌或超越最先进的专门模型,而且在统一架构内处理各种输入模式和生成任务方面也具有显著的多功能性。
方法
(a) AudioX 概述,展示了其在各种任务中的能力。
(b) 雷达图比较了不同方法在多个基准测试中的表现。AudioX 在音频和音乐生成任务中的各种数据集上展示了卓越的 Inception Score (IS)。
AudioX 将专门用于视频、文本和音频的编码器与 DiT 模型集成,以生成高质量的音频或音乐。给定视频 Xv、文本 Xt 和音频 Xa,该过程首先随机屏蔽每个模态——具体来说,是来自视频帧、文本标记和音频片段的图像块子集。该策略旨在鼓励稳健的跨模态交互并增强表示学习。对于图像通过填充帧将它们视为静态视频序列,确保一致地处理视觉数据。接下来,每个模态都通过其相应的编码器和专用投影模块来提取特定于域的特征。视觉投影利用时间变换器和线性层来捕获时间模式,而文本和音频投影都使用线性变换进行维度对齐。
结果
跨各种任务的定性比较
(a)在文本转音频 (T2A) 和文本转音乐 (T2M) 任务中,我们的模型通过持续生成时钟的"滴答"声并准确遵循提示"钢鼓乐器上演奏的音乐"而独树一帜,在节奏精度和流派保真度方面均优于基线。
(b) 音频修复结果展示了我们模型强大的情境感知能力及其有效整合不同输入模式的能力。
(c) 视频转音频 (V2A) 结果显示我们的模型能够熟练地捕捉动态运动声音,例如汽车的沉浸式"漂移",与基线相比,提供了更丰富的听觉体验。
定性分析
(a)文本到音频和文本到音乐的合成
(b)视频到音频和视频到音乐的生成
(c)音频修复和音乐完成。
结论
AudioX是一个统一的框架,它解决了音频和音乐生成中多模态集成的挑战,克服了现有方法中普遍存在的输入模态和输出域限制。通过采用基于 DiT 的方法并结合输入掩码策略,该模型有效地统一了文本、视频和音频输入,以产生高质量的音频输出。论文还整理和利用了全面的多模态数据集,为训练和评估提供了坚实的基础。大量的实验结果表明,AudioX 不仅在模态内任务中表现出色,而且还显著提高了模态间性能,凸显了其推动多模态音频生成领域发展的潜力。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论