阿里开源电影级配音模型Fun-CineForge,基于多模态大模型,支持独白、对话、旁白等多角色配音,精准口型同步与情感表达,可实现音色克隆。视频创作者、影视后期可免费使用开源项目,提升配音效率与质量。
Tags:
今天给大家介绍由阿里刚开源的电影级配音模型Fun-CineForge,这是一种用于多样化影视场景零样本配音的统一数据集管道和模型,AI也能「分饰多角」了!
我体验后主要特点如下:
不是普通TTS,而是视频理解+角色识别+语音生成端到端联动 自带「时间模态」能力,能精准判断谁在什么时候说话,多人对话/快速切角也不乱 支持多角色音色自然切换,类似真人配音演员一人分饰多角 口型同步、音质、情感表达都达到电影级水准 适用场景全覆盖:独白、旁白、双人对话、群戏争吵…都能hold住
效果展示
相关链接
主页:https://funcineforge.github.io 模型:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge 源码:https://github.com/FunAudioLLM/FunCineForge
介绍
电影配音是指根据视频场景,从脚本中合成语音的任务,这需要精确的唇形同步、忠实的音色还原以及对角色身份和情感的恰当建模。然而,现有方法面临两大主要局限:
高质量的多模态配音数据集规模有限,词错误率高,标注稀疏,依赖成本高昂的人工标注,且仅限于独白场景,所有这些都阻碍了模型的有效训练; 现有的配音模型仅依赖唇部区域来学习视听对齐,这限制了它们在复杂的真人电影场景中的应用,并且在唇形同步、语音质量和情感表达方面表现欠佳。
为了解决这些问题,论文提出了 FunCineForge,它包含一个用于大规模配音数据集的端到端制作流程,以及一个基于 MLLM 的配音模型,该模型专为各种电影场景而设计。利用该流程论文构建了首个包含丰富标注的中文电视配音数据集,并验证了这些数据的高质量。在独白、旁白、对话和多说话人场景中的实验表明,该配音模型在音频质量、唇形同步、音色还原和指令执行方面均优于现有最佳方法。
概述
Fun-CineForge 包含一个生产大规模配音数据集的端到端数据集管道,和一个基于多模态大模型的配音模型,该模型专为多样的电影场景而设计。利用该管道建了首个大规模中文电视剧配音数据集 CineDub-CN,该数据集包含丰富的标注和多样化的场景。在独白、旁白、对话和多说话人场景中,该配音模型在音频质量、唇形同步、音色转换和指令遵循等方面全部优于最先进的方法。
CineDub 数据集
数据样例
{"messages": [
{"role": "text", "content": "哎呀,将军,将军,不可连累老夫啊!大丈夫生居天地之间,岂能郁郁久居人下!"},
{"role": "token", "content": "xxx/zh/三国演义/07/tokens/07_00_23_51_30_spk12.npy"},
{"role": "vocal", "content": "xxx/zh/三国演义/07/vocals/07_00_23_51_30_spk12.wav"},
{"role": "instrumental", "content": "xxx/zh/三国演义/07/instrumental/07_00_23_51_30_spk12.wav"},
{"role": "video", "content": "xxx/zh/三国演义/07/clipped/07_00_23_51_30_spk12.mp4"},
{"role": "face", "content": "xxx/zh/三国演义/07/embs_video/07_00_23_51_30_spk12.pkl"},
{"role": "embswav", "content": "xxx/zh/三国演义/07/embs_wav/07_00_23_51_30_spk12.pkl"},
{"角色": "对话", "内容": [
{"start": 0.0, "duration": 4.0, "spk": "1", "gender": "男", "age": "中年", "timbre": "低沉、苍老、颤抖"},
{"start": 5.74, "duration": 2.63, "spk": "2", "gender": "男", "age": "青年", "timbre": "洪亮、有力、激昂"},
{"start": 8.89, "duration": 2.15, "spk": "2", "gender": "男", "age": "青年", "timbre": "高亢、有力、果断"}]},
{"role": "clue", "content": "两名角色对话,第一位中年男性情绪紧张,略带颤抖和哀求,表达对被牵连的恐惧。第二位青年男性语调变得激昂坚定,铿锵有力,充满对尊严和自由的强烈渴望。整体展现出从畏惧到反抗的情感转变。"},
{"role": "emotion", "content": "紧张 0.9"}
],
"utt": "sanguoyanyi_07_00_23_51_30_spk12",
"type": "对话",
"source": "zh",
任务:VTTS,
"text_length": 36,
"clue_length": 89,
"speech_length": 277
}
实验
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论