AI I024: 阿里开源电影级配音模型Fun-CineForge，AI分饰多角支持音色克隆

2026年3月18日星期三

阿里开源电影级配音模型Fun-CineForge，AI分饰多角支持音色克隆

阿里开源电影级配音模型Fun-CineForge，基于多模态大模型，支持独白、对话、旁白等多角色配音，精准口型同步与情感表达，可实现音色克隆。视频创作者、影视后期可免费使用开源项目，提升配音效率与质量。

Tags:

AI配音

阿里开源

电影级配音

音色克隆

多角色配音

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

今天给大家介绍由阿里刚开源的电影级配音模型Fun-CineForge，这是一种用于多样化影视场景零样本配音的统一数据集管道和模型，AI也能「分饰多角」了！

我体验后主要特点如下：

不是普通TTS，而是视频理解+角色识别+语音生成端到端联动
自带「时间模态」能力，能精准判断谁在什么时候说话，多人对话/快速切角也不乱
支持多角色音色自然切换，类似真人配音演员一人分饰多角
口型同步、音质、情感表达都达到电影级水准
适用场景全覆盖：独白、旁白、双人对话、群戏争吵…都能hold住

unsetunset效果展示unsetunset

unsetunset相关链接unsetunset

主页：https://funcineforge.github.io
模型：https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge
源码：https://github.com/FunAudioLLM/FunCineForge

unsetunset介绍unsetunset

电影配音是指根据视频场景，从脚本中合成语音的任务，这需要精确的唇形同步、忠实的音色还原以及对角色身份和情感的恰当建模。然而，现有方法面临两大主要局限：

高质量的多模态配音数据集规模有限，词错误率高，标注稀疏，依赖成本高昂的人工标注，且仅限于独白场景，所有这些都阻碍了模型的有效训练；
现有的配音模型仅依赖唇部区域来学习视听对齐，这限制了它们在复杂的真人电影场景中的应用，并且在唇形同步、语音质量和情感表达方面表现欠佳。

为了解决这些问题，论文提出了 FunCineForge，它包含一个用于大规模配音数据集的端到端制作流程，以及一个基于 MLLM 的配音模型，该模型专为各种电影场景而设计。利用该流程论文构建了首个包含丰富标注的中文电视配音数据集，并验证了这些数据的高质量。在独白、旁白、对话和多说话人场景中的实验表明，该配音模型在音频质量、唇形同步、音色还原和指令执行方面均优于现有最佳方法。

unsetunset概述unsetunset

Fun-CineForge 包含一个生产大规模配音数据集的端到端数据集管道，和一个基于多模态大模型的配音模型，该模型专为多样的电影场景而设计。利用该管道建了首个大规模中文电视剧配音数据集 CineDub-CN，该数据集包含丰富的标注和多样化的场景。在独白、旁白、对话和多说话人场景中，该配音模型在音频质量、唇形同步、音色转换和指令遵循等方面全部优于最先进的方法。

CineDub 数据集

数据样例

{"messages": [
    {"role": "text", "content": "哎呀，将军，将军，不可连累老夫啊！大丈夫生居天地之间，岂能郁郁久居人下！"}, 
    {"role": "token", "content": "xxx/zh/三国演义/07/tokens/07_00_23_51_30_spk12.npy"}, 
    {"role": "vocal", "content": "xxx/zh/三国演义/07/vocals/07_00_23_51_30_spk12.wav"}, 
    {"role": "instrumental", "content": "xxx/zh/三国演义/07/instrumental/07_00_23_51_30_spk12.wav"}, 
    {"role": "video", "content": "xxx/zh/三国演义/07/clipped/07_00_23_51_30_spk12.mp4"}, 
    {"role": "face", "content": "xxx/zh/三国演义/07/embs_video/07_00_23_51_30_spk12.pkl"}, 
    {"role": "embswav", "content": "xxx/zh/三国演义/07/embs_wav/07_00_23_51_30_spk12.pkl"}, 
    {"角色": "对话", "内容": [
        {"start": 0.0, "duration": 4.0, "spk": "1", "gender": "男", "age": "中年", "timbre": "低沉、苍老、颤抖"}, 
        {"start": 5.74, "duration": 2.63, "spk": "2", "gender": "男", "age": "青年", "timbre": "洪亮、有力、激昂"}, 
        {"start": 8.89, "duration": 2.15, "spk": "2", "gender": "男", "age": "青年", "timbre": "高亢、有力、果断"}]}, 
    {"role": "clue", "content": "两名角色对话，第一位中年男性情绪紧张，略带颤抖和哀求，表达对被牵连的恐惧。第二位青年男性语调变得激昂坚定，铿锵有力，充满对尊严和自由的强烈渴望。整体展现出从畏惧到反抗的情感转变。"}, 
    {"role": "emotion", "content": "紧张 0.9"}
],
"utt": "sanguoyanyi_07_00_23_51_30_spk12",
"type": "对话", 
"source": "zh",
任务：VTTS，
"text_length": 36,
"clue_length": 89,
"speech_length": 277
}

unsetunset实验unsetunset

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2026年3月18日星期三

阿里开源电影级配音模型Fun-CineForge，AI分饰多角支持音色克隆

阿里开源电影级配音模型Fun-CineForge，基于多模态大模型，支持独白、对话、旁白等多角色配音，精准口型同步与情感表达，可实现音色克隆。视频创作者、影视后期可免费使用开源项目，提升配音效率与质量。

Tags:

AI配音

阿里开源

电影级配音

音色克隆

多角色配音

unsetunset效果展示unsetunset

unsetunset相关链接unsetunset

unsetunset介绍unsetunset

unsetunset概述unsetunset

CineDub 数据集

unsetunset实验unsetunset

没有评论:

发表评论

免费大模型 API全景指南：20+平台白嫖攻略，从注册到上手

标签

2026年3月18日星期三

阿里开源电影级配音模型Fun-CineForge，AI分饰多角支持音色克隆

阿里开源电影级配音模型Fun-CineForge，基于多模态大模型，支持独白、对话、旁白等多角色配音，精准口型同步与情感表达，可实现音色克隆。视频创作者、影视后期可免费使用开源项目，提升配音效率与质量。

Tags: AI配音 阿里开源 电影级配音 音色克隆 多角色配音

unsetunset效果展示unsetunset

unsetunset相关链接unsetunset

unsetunset介绍unsetunset

unsetunset概述unsetunset

CineDub 数据集

unsetunset实验unsetunset

没有评论:

发表评论

免费大模型 API全景指南：20+平台白嫖攻略，从注册到上手

Tags:

AI配音

阿里开源

电影级配音

音色克隆

多角色配音