2025年5月27日星期二

利用多模态模型赋能,SONY团队完成音乐到音乐视频描述生成大突破!

最新论文解读系列论文名:Cross-Modal Learning for Music-to-Music-Vi


最新论文解读系列

图片

论文名:Cross-Modal Learning for Music-to-Music-Video Description Generation

论文链接:https://arxiv.org/pdf/2503.11190

开源代码:暂无

图片

导读

生成与给定音乐相匹配的音乐视频(MV)是一项具有挑战性的任务,因为音乐和视频模态之间存在固有差异。尽管存在挑战,但音乐视频生成在通过提供与音乐的基调、风格和情绪相契合的视觉叙事来增强音乐体验方面具有巨大潜力,为观众提供了一种更沉浸式和引人入胜的方式来与音乐建立联系。与从给定视频生成音乐或音频相比,反向任务更为复杂,因为视频模态通常比音乐传达更丰富的空间和时间信息。然而,随着文本到视频扩散模型的出现,现在可以从文本描述生成视频。这一发展使音乐视频生成可以分为两个子任务:(1)音乐到音乐视频描述生成和(2)音乐视频描述到音乐视频生成。如图1所示,音乐视频描述可以使用像GPT这样的大语言模型(LLM)进一步优化,以适应特定的文本到视频模型。在本研究中,我们专注于第一个任务:从音乐生成MV描述。图片

图1:音乐到MV生成的流程。在本研究中,我们专注于阶段2的多模态模型训练。

简介

由于音乐和视频模态之间的内在差异,音乐到音乐视频生成是一项具有挑战性的任务。强大的文本到视频扩散模型的出现,通过先解决音乐到音乐视频(MV)描述任务,然后利用这些模型进行视频生成,为音乐视频生成开辟了一条有前景的途径。在本研究中,我们专注于音乐视频描述生成任务,并提出了一个涵盖训练数据构建和多模态模型微调的综合流程。我们基于Music4All数据集新构建的音乐到音乐视频描述数据集,对现有的预训练多模态模型进行微调,该数据集整合了音乐和视觉信息。我们的实验结果表明,音乐表征可以有效地映射到文本领域,从而能够直接从音乐输入生成有意义的音乐视频描述。我们还确定了数据构建流程中对音乐视频描述质量有关键影响的关键组件,并强调了为改进音乐视频描述生成而需要更多关注的特定音乐属性。

方法与模型

1 数据构建

本节概述了我们为音乐到MV描述生成任务构建训练和评估数据集所提出的流程。

1.1 MV数据集

我们基于Music4All数据集(Santana等人,2020年)构建了我们的数据集,该数据集包含约个音乐片段,这些片段与相应的MV配对,并配有诸如能量、情感价和流派等元数据。为了增强数据集,我们利用OpenMU模型(Zhao等人,2024年)为Music4All中的所有音乐片段生成歌词理解文本。这个过程有效地解读了每首音乐的歌词,提供了与歌词相关的简洁文本信息。此外,我们过滤掉了仅由静态图像而非实际视频素材组成的MV。过滤后,最终数据集包含56,446个样本,其中55,000个用于训练,1,446个用于测试。

1.2 音乐及相关信息输入数据的构建

在准备好Music4All数据集中音乐片段、MV、歌词理解文本和元数据的训练和评估划分后,我们精心挑选了各种数据类型作为MV描述生成任务的输入。为了纳入跨不同模态的更丰富的音乐信息,除了音乐片段外,我们还将音乐流派标签和歌词理解文本作为输入。此外,为了优化输出的MV描述并使任务更具针对性,我们通过提供MV类型标签来指定输出的风格。这些标签使用GPT - 4o mini(OpenAI,2023年)分配给MV片段,包括十个候选类别:现场表演、歌词视频、动画、故事叙事、艺术/抽象、舞蹈表演、幕后花絮、自然/风景、静态/动态图片蒙太奇和电影剧情。

如图2所示,这四种类型的输入用于训练多模态大语言模型,遵循固定的指令:"生成一个简洁的视频提示,捕捉MV的精髓,融入音乐的基调、风格和歌词主题。提示应反映指定的MV类型,并与音乐流派保持一致,以确保风格连贯,用于指导文本到视频模型。"

图片

图2:创建音乐到MV描述训练数据集的流程(上)以及利用生成的数据训练音乐到文本大语言模型(LLM)的示例(下)。

1.3 MV描述输出数据的构建

输出的MV描述应提供丰富的内容,详细描述MV的视觉元素,同时与音乐特征(如节奏、强拍)以及音乐所传达的情绪等高层次特征紧密相关。为了实现这一点,我们首先使用GPT - 4o mini为MV片段添加字幕并提取相关的视觉上下文。接下来,我们再次使用GPT - 4o mini优化这些字幕,整合关键的音乐特征,包括音乐字幕、低层次音乐属性和歌词理解。音乐字幕和歌词理解文本使用OpenMU音乐理解模型生成,而低层次音乐特征则使用开源工具(Böck等人,2016年)提取,遵循LLark(Gardner等人,2024年)的方法。构建的MV描述数据集包括两个主要部分:概述和逐帧分解,对于每个30秒的MV片段,每隔两秒提取一次帧字幕。附录A中提供了音乐字幕、低层次音乐特征和完整MV描述的示例。

2 多模态模型训练

我们使用NExT - GPT(Wu等人,2024年),这是一个任意到任意的多模态训练框架,利用构建的音乐到MV描述数据集对我们的模型进行微调。按照NExT - GPT的方法,微调过程分为多个阶段。在第一阶段,我们仅利用音乐字幕任务对ImageBind(Girdhar等人,2023年)编码器和Vicuna大语言模型(Zheng等人,2023年)之间的适配器进行微调。在第二阶段,我们同时微调适配器,并使用构建的音乐到MV描述数据集对Vicuna应用低秩自适应(LoRA,Hu等人,2022年)微调。如图2所示,包括音乐片段在内的输入数据按顺序格式化,后面跟着一条固定指令。模型经过训练以生成包含总体摘要和逐帧分解的MV描述。我们分别在第一阶段和第二阶段进行5个和2个轮次的微调,学习率为,批量大小为2。训练在2块英伟达A6000 GPU上进行。对于低秩自适应(LoRA),按照NExT - GPT的设置,秩和alpha均设为32。

实验与结果

使用我们构建的数据集中的1446个测试样本,我们使用BLEU(Papineni等人,2002)、ROUGE - L(Lin,2004)和BERT分数(Zhang等人,2020)评估生成的MV描述,考虑不同的输入组合:①音乐、②音乐流派标签、③MV类型标签和④歌词理解文本。此外,在附录B中,我们展示了由Text2Video - Zero(Khachatryan等人,2023)生成的几个MV帧,以测试整个提议的MV生成流程的可行性,使用我们标注的真实MV描述作为输入。

1 主要结果

如表1所示,我们提出的音乐到MV描述生成流程在针对特定音乐领域进行微调后,相对于NExT - GPT基线有显著改进。这表明,通过提议的数据集和流程,音乐可以有效地映射到文本领域。将主要结果与推理过程中移除所有输入(仅保留固定指令)的合理性检查进行比较,我们发现我们精心设计的与音乐相关信息的输入对生成的MV描述的质量有很大贡献。有趣的是,训练后,即使没有任何输入,模型也能生成合理的MV描述,这表明NExT - GPT模型成功适应了MV描述生成下游任务。

图片

表1:Music4All数据集上MV描述生成的结果。我们提供了BLEU的BLEU - 1和BLEU - 4分数,以及ROUGE - L和BERT分数的精确率、召回率和F1分数。①、②、③和④分别代表音乐、音乐流派标签、MV类型标签和歌词理解文本。每个指标中的前三个值用粗体突出显示。

2 消融研究

通过对不同数据源组合进行消融研究,我们发现设置①+②+③和①+③+④与全数据组合(①+②+③+④)相比,取得了相当甚至略好的性能。这表明音乐流派标签(②)和歌词理解文本(④)的贡献是可互换的,一起使用时不会提供额外的好处。观察①+③的结果,我们注意到音乐流派标签(②)和歌词理解(④)对结果有积极影响,并且不是冗余输入。将表现最好的三个设置(①+②+③、①+③+④和①+②+③+④)与组合②+③+④和①+②+④进行比较,我们观察到性能显著下降。这凸显了同时包含音乐(①)和MV类型标签(③)的重要性。从①+④的结果来看,同时包含音乐流派标签(②)和MV类型标签(③)在所有指标上都有持续的改进。此外,②+③的结果表明,即使使用简单的音乐和MV标签,模型也能生成合理的MV描述,这表明未来有机会通过利用更细粒度的特征(如歌词和音乐波形之间的时间对齐)来提高模型的性能。

总结

在这项研究中,我们探索了音乐到MV描述任务的数据构建和多模态训练流程,目标是为更广泛的音乐到MV生成任务构建强大的基础模型。我们在构建的Music4All数据集上的结果突出了对MV描述质量有显著影响的关键数据源。未来的工作可以将我们提出的数据集构建流程扩展到其他音乐领域。此外,探索更有效的方法来使MV描述或MV与相应的音乐对齐,可以为在这个具有挑战性的任务中提高性能铺平道路。




感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~




没有评论:

发表评论

本波Claude封号潮仍在继续!

本波Claude封号潮仍在继续!早上刚刚充值的账号,下午可能就无法使用了。 本波Claude封号潮仍在继续! 早上刚刚充值的账号,下午可能就无法使用了。 我们深知账号稳定的重要性, 后台正源源不断地补充Claude账号 。尽管成本高昂, 我们依然致力于为大家提供持续、不间断的...