多模态生成技术在图像、视频、语音等方向的快速突破,使 "音乐 × 视频" 的多模态生成变成新的研究热点。
● 在音乐驱动的视频生成中,仍缺乏对长时序一致性、音画节奏对齐与镜头运动的系统建模;
● 歌声转换(SVC)方面,在大量真实歌曲输入下仍面临音色稳定性不足、和声干扰导致破音等业界难题;
● 歌声合成(SVS)场景,缺乏能够在零样本条件下稳健适配不同歌词长度与旋律结构的模型。
在此背景下, 继 2024 年发布 YingGame 有声游戏生成模型之后,继续在多模态领域发力,本次联合清华大学与西北工业大学推出三项研究成果:YingVideo-MV、YingMusic-SVC 与 YingMusic-Singer,分别面向音乐驱动的视频生成、歌声转换与歌声合成任务,完善了真实业务场景中多项关键能力链路,为 "音乐 × 视频" 的多模态生成方向带来了系统性的技术进展。
目前,巨人网络及合作高校已陆续开源部分 QianYing 多模态系列模型,并将持续向开源社区输出模型与技术成果,推动多模态生成技术在学术与产业侧的共同发展。
YingVideo-MV:音乐驱动的节奏同步与镜头协调的长视频生成模型
背景与挑战
音乐表演视频在电影、MV、Vlog 与广告制作中具有重要价值。通过联合建模图像、音频与文本,音乐驱动的视频生成模型旨在合成时序一致的表情、口型与动作,以增强音乐的情绪表现与沉浸感。尽管近年来基于Transformer的视频扩散模型在时序建模和多模态对齐方面取得了突破,但生成音乐视频(MV),仍面临三大核心挑战:
● 缺乏镜头语言建模,叙事不足: MV 的视觉张力高度依赖镜头推进、景深变化与运镜节奏。现有模型往往缺乏对高层镜头语言的理解,生成的画面单调、镜头僵硬,无法呈现MV的叙事感。
● 跨模态节奏对齐难: 音乐驱动不仅要求捕捉音频的物理节奏,还需理解整体音乐语义和叙事意图,使生成视频中的镜头运动、人物动作与音乐情绪变化在时间轴上保持高度一致。
● 长序列生成漂移: 现有方法通常采用"切片生成再拼接"的策略,在生成长视频时容易出现身份(Identity)漂移、表情断层或风格突变,难以维持长时序下的高质量一致性。
本视频展示了一个多阶段的音乐驱动视频生成框架——YingVideo-MV。框架以音乐片段和单张人物图像为输入,通过多模态 Agent分析音乐节奏、旋律和情感等关键信息,从而驱动整体的视频生成。生成的视频不仅具备富有表现力的镜头运动,还保持了高水平的人物一致性,并呈现多样的艺术风格。
GitHub: https://github.com/GiantAILab/YingVideo-MV
Tech report:
https://github.com/GiantAILab/YingVideo-MV/blob/main/tech_report/YingVideo-MV-Tech_Report.pdf
Project page:https://giantailab.github.io/YingVideo-MV/
模型部分
图1:YingVideo-MV 整体架构图
针对上述痛点,团队提出了 YingVideo-MV,这是一个由音乐信号驱动、由多模态 Agent 与视频生成模型协同完成的多阶段视频生成框架,显著提升长时序结构、镜头表达与整体生成质量。
两阶段的视频生成框架 团队构建了"分镜规划 + 细节生成"的两阶段级联音乐视频生成框架:首先由 MV Director 深度解析输入音乐的节奏变化,生成包含首帧参考、关键动作与镜头运动轨迹的结构化分镜脚本,以确保生成的整体视频具备一致性;随后,由改进的音乐驱动视频生成模型并行生成高保真子片段,最终实现整体一致性与局部细节表现的统一。
图2:音频驱动视频生成模型网络架构
镜头移动的音乐驱动视频生成模型 团队提出了镜头轨迹控制模块和动态窗口推理策略,用于提高生成视频的效果和质量:
● 相机适配器(Camera Adapter)实现轨迹控制 为了将专业的镜头语言注入生成过程,团队设计了 Camera Adapter 模块。该模块将相机参数嵌入投影为与噪声潜在表示(Latent Representation)匹配的张量形状,并通过逐元素相加(Element-wise Addition)的方式融合到 DiT 主干网络中。这一设计实现了一种简单高效的机制,能够将推、拉、摇、移等精确的相机运动作为条件,显式地控制视频生成。
● 动态窗口推理(Dynamic Window Inference) 为解决长序列一致性问题,团队提出了动态窗口推理机制。该机制在相邻子片段的生成过程中传递视觉状态(包括人脸特征、姿态及光照信息),实现信息的跨片段共享。这一策略有效消除了视频拼接处的缝隙,避免了身份漂移和视觉断层,确保长视频的无缝过渡。
实验效果
YingVideo-MV展示了可控、稳定且具备专业镜头语言的视频自动生成效果,具有以下特点:
● 镜头运动: 能够生成与节拍严格同步的推拉摇移效果。
● 人物表现: 实现了高精度的口型同步,表情自然连贯,情绪表达准确。
● 长序列稳定性: 在长视频生成中,人物身份保持稳定,画面无漂移、无断层。
在HDTF, CelebV-HQ, EMTD和MultiCam数据集上,YingVideo-MV展现了镜头平滑移动、视频质量、人物身份一致性和口型对齐的整体最优结果:(1)镜头平滑移动:实验表明,YingVideo-MV极大抑制镜头平移误差的同时并未明显提高镜头旋转误差,这表明模型做到更自然地镜头移动效果。(2)视频质量:FID/FVD 的差异主要源于模型采用了更动态的镜头运动生成策略,该策略可能在局部帧中造成轻微质量波动,但整体视频的节奏连贯性与视觉观感得到明显提升。(3)身份一致性和口型对齐:在容易发生身份飘移的场景大幅变化中,模型做到身份相似度最高的同时口型对齐方面也做到最优。
结论
团队提出了 YingVideo-MV,通过结合 MV Director 的全局分镜规划、DiT 的细节生成能力以及动态窗口推理的长序列建模,成功解决了音乐驱动的视频生成任务中镜头语言缺失和长时序不一致的难题。该工作为自动化、高质量的音乐驱动视频生成提供一套清晰、可扩展的思路。
YingMusic-SVC:高稳定性歌声转换,优化真实歌曲输入效果
背景与挑战
歌声转换(SVC)旨在将源歌手的音色转换为目标歌手,同时保留原始的音乐内容与旋律 。尽管 RVC 等开源框架已能实现逼真的转换效果,但在面向真实工业场景时,仍存在巨大的技术鸿沟:
● 非理想输入源的鲁棒性差: 现有系统大多在干净的干声上进行评估。但在实际业务中,输入往往是包含伴奏的完整歌曲。即使经过前置的人声分离,分离出的轨道仍常伴有和声残留(Harmony Bleed)、混响或回声 。将这种"不完美"的人声作为输入,会导致转换结果出现明显的伪影或杂音 。
● 歌唱特有属性建模不足: 大多数 Zero-shot SVC 模型仅简单地将语音转换(VC)架构加上 F0 条件控制,缺乏针对"歌唱"的归纳偏置设计 。歌声相比语音拥有更大的动态范围(Dynamics)和更丰富的高频谐波细节,通用模型往往难以捕捉这些特征,导致高音沉闷或细节丢失 。
● 听感与优化目标的错位: 传统的监督学习损失函数(如 MSE)难以直接优化自然度、音色一致性和音乐美感等高层感知属性 。这导致模型生成的音频虽然参数指标尚可,但主观听感仍有差距。
GitHub:
https://github.com/GiantAILab/YingMusic-SVC
Checkpoint Huggingface:
https://huggingface.co/GiantAILab/YingMusic-SVC
Benchmark dataset Huggingface:
https://huggingface.co/datasets/GiantAILab/YingMusic-SVC_Difficulty-Graded_Benchmark
Tech report:
https://github.com/GiantAILab/YingMusic-SVC/blob/main/tech_report/YingMusic-SVC_tech_report.pdf
Project page:https://giantailab.github.io/YingMusic-SVC/
注:原曲输入(带有和声、混响等音乐后期制作)
注:Seed-VC demo,模型在遇到和声音轨时会有破音。
注:RVC demo,模型同样在遇到和声音轨时会有破音。
注:YingMusic-SVC demo,模型对和声音轨等有着较好的鲁棒性。
方法:Multi-Stage 训练方法及真实歌声场景定向优化
针对上述挑战,团队提出了 YingMusic-SVC,这是一个面向工业级应用的鲁棒 Zero-shot SVC 系统。该系统基于 DiT 架构进行了面向歌声建模的优化设计,采用三阶段的训练方式,并首次将强化学习(RL)应用于DiT架构的 SVC 的后训练阶段。
图 3:YingMusic-SVC的模型架构及训练方法图
1、歌唱特异性的模型增强(Singing-Specific Enhancements) 为更精准地建模歌唱特征,优化歌声中高频细节与音色动态表现,团队做了多项改进:
● 基于 RVC 的音色随机化(RVC Timbre Shifter): 不同于直接使用原始音频,系统引入了一个在 120 人歌声数据上预训练的 RVC 模块,将输入歌声转换为随机音色后再进行内容编码 。这一步骤有效去除了源歌手的音色残留,使内容特征更加纯净,从而提升了转换后的咬字准确性。
● F0 感知的动态音色适配(F0-Aware Adaptive Timbre): 歌声的音质会随音高变化(如低音胸腔共鸣 vs 高音头腔共鸣)。模型引入了 F0 感知的音色适配模块,根据当前音高动态调整音色 Embedding,从而更真实地还原歌手在不同音域下的表现力。
● 能量平衡流匹配损失(Energy-Balanced Flow Matching Loss): 针对歌声高频能量低、易被损失函数忽略的问题,设计了频率加权的损失函数,赋予高频细节更高的权重,显著提升了高频谐波和呼吸声的还原度。
2、三阶段训练:先以 CPT (Continuous Pre-training) 适配并稳定歌唱特异模块,其后在精选与增强语料上进行 SFT (Supervised Fine-tuning)以提升鲁棒性,最后以 Flow-GRPO 的多目标奖励开展 RL 后训练,直接优化可懂度、音色与美学感知。下面依次展开:
● 继续预训练 (CPT)
模型训练从 SeedVC 的 checkpoint 出发,利用混合的说话与歌声数据进行持续预训练,以逐步适配并稳定新增的歌唱特异性模块。这一阶段旨在让模型在保持语音建模能力的同时,更好地迁移至歌唱场景,为后续的监督微调与强化学习奠定稳健基础。
● 鲁棒性监督微调(Robust SFT)
为了应对真实场景中的和声残留和 F0 提取错误,团队构建了鲁棒微调策略。通过在训练中引入 随机 F0 扰动(模拟抖动、滑音误差)和 额外的分轨和声数据,强制模型学习从受污染的输入中重建干净歌声流 (flow),从而大幅提升了对工业级输入的容错率。
● 基于 Flow-GRPO 的 RL 后训练
这是 Flow-GRPO 算法在 SVC 领域的首次应用 。团队基于歌声转换任务的多维特性,兼顾语义可懂度、音色一致性与主观听感三方面指标,构建了复合评估体系,设计了一个多目标奖励函数,包含:
■ 智能度奖励(Intelligibility): 基于 ASR 模型的词错误率(WER)优化咬字清晰度。
■ 音色相似度奖励(Timbre Similarity): 基于声纹模型确保目标音色的高保真还原。
■ 美学质量奖励(Aesthetic Quality): 引入 Audiobox Aesthetics 模型优化听感美誉度。
实验效果
基于提供的三组不同难度的测试集数据(GT Leading, Ours Leading, Mix Vocal),YingMusic-SVC展现了显著的性能提升:
● 理想场景下的极致表现(GT Leading): 在以干净真值人声(GT Leading)作为输入的理想条件下, Ours-Full 实现了 0.80 的说话人相似度(SPK-SIM)、9.26% 的字符错误率(CER),以及 98.12% 的 F0 相关性(LOGF0pcc)。相较于baseline模型 Seed-VC(CER 10.89%),本方法在保持音色一致性的同时显著提升了语音清晰度。此外,其 Aesthetic CE=5.86、CU=6.56 的结果也表明 YingMusic-SVC 在听感自然度和整体音质上均优于传统对照模型,展现了 RL 微调在理想场景下的上限潜力。
● 真实分离场景的鲁棒性(Ours Leading): 当输入为自研分离模型(该模型针对实际业务场景中因和声引发的破音与伪影问题进行了重新设计,并在输出端额外添加了和声掩码以获得更干净的主唱轨)分离的人声(Ours Leading)时,Ours-Full依然保持了 0.801 的高音色相似度,且 F0 相关性达到 89.78%,证明了其在面对非完美分离素材时的稳定性。
● 高难度混合场景的突破(Mix Vocal): 在最具挑战性的混合人声(Mix Vocal,含和声与伴奏残留)测试中,Ours-Full展现了强大的抗干扰能力。其 F0 相关性达到 86.47%,显著优于 FreeSVC (60.18) 和 Seed-VC (84.02)。同时,在主观听感指标(CMOS/SMOS)上,Ours-Full也取得了相对于 baseline 的正向收益。
结论
YingMusic-SVC 通过构建包含 歌唱特异性建模、鲁棒性 SFT 以及 Flow-GRPO 强化学习 的完整工业级管线 ,有效解决了真实场景中歌声转换面临的伴奏干扰与高频细节丢失问题。实验数据表明,该系统不仅在理想条件下表现优异,更在复杂的真实歌曲输入下保持了极高的稳定性与自然度,为 Zero-shot SVC 技术的大规模落地提供了可靠的解决方案。
YingMusic-Singer:高灵活度的零样本歌声合成
背景与挑战
歌声合成(SVS)指的是给定歌词和旋律,系统自动"唱"出一段完整的歌声。歌声合成在音乐制作与互动娱乐中极具潜力,但要实现真正的"任意歌词配任意旋律",仍然有很多工作需要做:
● 依赖高成本强对齐数据: 传统 SVS 系统普遍依赖精确的音素级时长对齐和人工标注的 MIDI 信息,这不仅制作成本极高,限制了数据规模,也导致模型难以泛化。
● 歌词-旋律不匹配难题: 现有模型通常只能在"固定歌词对应固定旋律"的场景下工作。当用户尝试更改歌词(尤其是字数改变)时,由于音素数量与原始旋律节拍不匹配,模型容易出现发音生硬、节奏错位或"挤字"现象 。
● 缺乏 Zero-shot 能力: 大多数系统难以在未见过的音色或复杂的韵律结构下保持稳定,生成效果往往伴随音质退化,且推理时仍需依赖外部 MIDI 输入 。
Github: https://github.com/GiantAILab/YingMusic-Singer
Checkpoint Huggingface:
https://huggingface.co/GiantAILab/YingMusic-Singer
Tech report:https://github.com/GiantAILab/YingMusic-Singer/blob/main/resources/YingMusic-Singer_tech_report.pdf
注:YingMusic-Singer demo ,模型对于不同长度的歌词输入有着较好的自适应能力。
原歌词:那些断翅的蜻蜓 散落在这森林 而我的眼睛 没有丝毫同情 失去你 泪水浑浊不清
--> 修改歌词输入: 残翼的蜻蜓 沉溺于这枯寂 而我心底 泛不起涟漪 失去你 泪水凝不成冰
方法:结构化旋律引导与 GRPO 强化学习
针对上述痛点,团队提出了 YingMusic-Singer,这是一套无需精确旋律标注、支持任意歌词与旋律自由组合的 SVS 模型 。
图4:YingMusic-Singer 模型整体架构图
1. 基于 DiT 的 无需标注 的旋律引导 为了摆脱对人工强标注的依赖,同时确保歌词发音的可理解性,团队在原有 DiT 生成框架上引入了无需标注的旋律建模模块,并设计了相应的弱对齐机制,其核心设计包括:
● 在线旋律提取与联合优化: 设计了一个参数可学的旋律编码器,直接从参考音频中提取帧级旋律表征,并与基于 DiT 的生成模型进行端到端联合训练 。通过引入教师模型的蒸馏约束,确保提取的表征既包含准确的旋律语义,又能自适应下游生成任务。
● CKA 表示层对齐约束: 为了确保生成歌声遵循参考旋律的走向,团队引入了中心核对齐(CKA)损失 。该机制显式地最大化旋律表征与 DiT 模型预测流(predicted flow)特征之间的相关性,使模型在优化中显示的关注输入特征中的旋律对齐关系,使模型可以精准复现参考音频中的旋律结构。
图 5:句级歌词处理逻辑
2. 句级时长建模: 传统 SVS 系统往往难以在 不依赖精确音素标注的前提下,同时支持 灵活调整歌词结构与长度。为解决这一限制,我们的模型基于十万条仅带句级时间戳的弱标注数据进行训练,在无需精确音素对齐的情况下,仍能学习歌词音节在旋律中的合理布局。由此,系统在"改词"等高自由度场景中也能保持与目标旋律的稳定契合,从根本上降低了对昂贵标注和严格音素时长对齐的依赖。
图 6:YingMusic-Singer GRPO 实现方式图
3. 基于 Flow-GRPO 的强化学习后训练这是首次将强化学习引入 基于 DiT的SVS 任务 。为了进一步提升发音清晰度与旋律效果,使模型可以自适应的权衡内容生成准确度与旋律遵循度,团队进行了如下研究:
● 构建多维奖励函数: 融合了内容准确度(Content Accuracy)和旋律准确性(Melody Similarity)作为奖励信号 。
● Flow-GRPO 策略优化: 采用组相对策略优化(GRPO)算法对模型网络进行微调 ,通过在生成空间中探索更优解,模型在保持多样性的同时,提升了在复杂歌词下的咬字清晰度和旋律还原度。
实验效果
为评估YingMusic-Singer在内容与旋律控制方面的性能,我们完成了零样本歌声合成及歌声编辑(含结构与歌词修改)实验。在零样本音色转换任务中,模型通过目标歌词、乐谱符号(如MIDI)和参考音频,生成既符合目标内容与音符要求、又保留参考音色的歌声。本模型的独特性在于将类乐谱信息转化为参考演唱旋律,实现从旋律到歌声的端到端合成。
● 实验指标显示,经过后训练的 YingMusic-Singer 在多数任务中表现优异:其歌词转录错误率(WER)最低,音高相关性(FPC)达到竞争水平。此外,在主观评估中本模型的自然度评分更高,虽然客观旋律相似度指标 FPC 略低于 Vevo 但仍超过80% 阈值,且 WER 显著更低,说明其在保持旋律轮廓的同时实现了更优的内容还原。这印证了后训练策略能有效平衡内容准确度、自然度与旋律跟随这三个常相互制约的目标。
● 在改变歌词与句子结构的编辑任务中,Vevo 与本模型均保持低 WER 与高 F0 相关性,表明对于歌声编辑而言,保持音素单元的旋律走向比严格遵循原始歌词结构更为关键。
结论
YingMusic-Singer 通过 无需精确标注的旋律引导 和 Flow-GRPO 强化学习,摆脱了传统 SVS 技术对高成本的标注数据的依赖 。该系统在很大程度上缓解了歌词替换中"清晰度"与"旋律死板对齐"的矛盾,在大幅降低词错误率的同时保持了自然的音乐表现力。这一进步为大众用户提供了更自由、低门槛的音乐创作能力,推动 SVS 技术从"可用"向"好用、易用"迈出了关键一步。
本次发布的 YingVideo-MV、YingMusic-SVC 与 YingMusic-Singer,针对"音乐 × 视频"多模态生成在真实应用中的多项关键痛点,给出了系统且可落地的技术解决方案。
该系列研究,针对音乐视频的长时序一致性建模、复杂声学条件下的稳健音色迁移,以及非配对数据下的歌词—旋律生成等核心难点,并在多项核心指标上有显著提升。巨人网络 AI Lab 将在跨模态内容的理解与生成方向持续深耕,持续迭代 QianYing 系列多模态模型,通过开源与开放协作的方式,与学界和业界共同推动技术演进与大规模应用。
团队介绍
巨人网络 AI Lab 成立于 2022 年,是隶属于巨人网络的人工智能技术落地与研究机构。今年以来,团队多项人工智能研究成果入选ACM MM、ICASSP、Interspeech等国际顶级学术会议,覆盖多模态生成、音视频合成及多智能体等技术方向。
没有评论:
发表评论