2026年3月18日星期三

阿里开源电影级配音模型Fun-CineForge,AI分饰多角支持音色克隆

阿里开源电影级配音模型Fun-CineForge,基于多模态大模型,支持独白、对话、旁白等多角色配音,精准口型同步与情感表达,可实现音色克隆。视频创作者、影视后期可免费使用开源项目,提升配音效率与质量。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片
图片

今天给大家介绍由阿里刚开源的电影级配音模型Fun-CineForge,这是一种用于多样化影视场景零样本配音的统一数据集管道和模型,AI也能「分饰多角」了!

图片

我体验后主要特点如下:

  • 不是普通TTS,而是视频理解+角色识别+语音生成端到端联动
  • 自带「时间模态」能力,能精准判断谁在什么时候说话,多人对话/快速切角也不乱
  • 支持多角色音色自然切换,类似真人配音演员一人分饰多角
  • 口型同步、音质、情感表达都达到电影级水准
  • 适用场景全覆盖:独白、旁白、双人对话、群戏争吵…都能hold住

unsetunset效果展示unsetunset

unsetunset相关链接unsetunset

  • 主页:https://funcineforge.github.io
  • 模型:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge
  • 源码:https://github.com/FunAudioLLM/FunCineForge

unsetunset介绍unsetunset

电影配音是指根据视频场景,从脚本中合成语音的任务,这需要精确的唇形同步、忠实的音色还原以及对角色身份和情感的恰当建模。然而,现有方法面临两大主要局限:

  1. 高质量的多模态配音数据集规模有限,词错误率高,标注稀疏,依赖成本高昂的人工标注,且仅限于独白场景,所有这些都阻碍了模型的有效训练;
  2. 现有的配音模型仅依赖唇部区域来学习视听对齐,这限制了它们在复杂的真人电影场景中的应用,并且在唇形同步、语音质量和情感表达方面表现欠佳。

为了解决这些问题,论文提出了 FunCineForge,它包含一个用于大规模配音数据集的端到端制作流程,以及一个基于 MLLM 的配音模型,该模型专为各种电影场景而设计。利用该流程论文构建了首个包含丰富标注的中文电视配音数据集,并验证了这些数据的高质量。在独白、旁白、对话和多说话人场景中的实验表明,该配音模型在音频质量、唇形同步、音色还原和指令执行方面均优于现有最佳方法。

unsetunset概述unsetunset

图片

Fun-CineForge 包含一个生产大规模配音数据集的端到端数据集管道,和一个基于多模态大模型的配音模型,该模型专为多样的电影场景而设计。利用该管道建了首个大规模中文电视剧配音数据集 CineDub-CN,该数据集包含丰富的标注和多样化的场景。在独白、旁白、对话和多说话人场景中,该配音模型在音频质量、唇形同步、音色转换和指令遵循等方面全部优于最先进的方法。图片

图片

CineDub 数据集

  • 数据样例
{"messages": [
    {"role""text""content""哎呀,将军,将军,不可连累老夫啊!大丈夫生居天地之间,岂能郁郁久居人下!"}, 
    {"role""token""content""xxx/zh/三国演义/07/tokens/07_00_23_51_30_spk12.npy"}, 
    {"role""vocal""content""xxx/zh/三国演义/07/vocals/07_00_23_51_30_spk12.wav"}, 
    {"role""instrumental""content""xxx/zh/三国演义/07/instrumental/07_00_23_51_30_spk12.wav"}, 
    {"role""video""content""xxx/zh/三国演义/07/clipped/07_00_23_51_30_spk12.mp4"}, 
    {"role""face""content""xxx/zh/三国演义/07/embs_video/07_00_23_51_30_spk12.pkl"}, 
    {"role""embswav""content""xxx/zh/三国演义/07/embs_wav/07_00_23_51_30_spk12.pkl"}, 
    {"角色""对话""内容": [
        {"start": 0.0, "duration": 4.0, "spk""1""gender""男""age""中年""timbre""低沉、苍老、颤抖"}, 
        {"start": 5.74, "duration": 2.63, "spk""2""gender""男""age""青年""timbre""洪亮、有力、激昂"}, 
        {"start": 8.89, "duration": 2.15, "spk""2""gender""男""age""青年""timbre""高亢、有力、果断"}]}, 
    {"role""clue""content""两名角色对话,第一位中年男性情绪紧张,略带颤抖和哀求,表达对被牵连的恐惧。第二位青年男性语调变得激昂坚定,铿锵有力,充满对尊严和自由的强烈渴望。整体展现出从畏惧到反抗的情感转变。"}, 
    {"role""emotion""content""紧张 0.9"}
],
"utt""sanguoyanyi_07_00_23_51_30_spk12",
"type""对话"
"source""zh",
任务:VTTS,
"text_length": 36,
"clue_length": 89,
"speech_length": 277
}

unsetunset实验unsetunset

图片
图片

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

直播切片:让每场直播内容持续变现,避免GMV蒸发

本文面向IP主理人和主播,揭秘直播后内容切片的必要性。通过一鱼多吃策略,将直播内容转化为持续获客的切片,避免下播后GMV蒸发。只需发送直播回放,48小时获得专属切片,建立自动获客系统。 Tags: 直播切片 IP变现 内容复用 自动获客 长尾流量 ...