2025年4月20日星期日

阿里&北邮提出基于Wan2。1的音频驱动数字人FantasyTalking,只需输入肖像、语音和文字即可生成动画。




由高德地图、阿里巴巴、北邮联合提出首个基于Wan2.1的音频驱动数字人FantasyTalking,只需输入肖像图像、语音和文字,即可生成表情丰富、肢体动作自然且具有身份特征的动画肖像。此外,FantasyTalking 还可以控制动画肖像的运动强度。

生成的视频

FantasyTalking 可以生成高度逼真的唇部同步效果,确保角色的嘴部动作与音频完全匹配。支持各种风格的虚拟角色,无论是写实风格还是卡通风格,都能生成高质量的对话视频。

逼真的谈话视频

FantasyTalking 支持生成各种身体范围和方向的逼真说话视频,包括特写肖像、半身、全身以及正面和侧面姿势。

多样化的字符风格

FantasyTalking 可以以各种风格为人物和动物制作动画,生成动态、富有表现力且自然逼真的风格化视频。

与闭源方法的比较

将 FantasyTalking 模型的性能与 OmniHuman-1(当前用于多模态条件人类视频生成的 SOTA 方法)进行了比较。

相关链接

  • 论文:https://arxiv.org/abs/2504.04842
  • 项目:https://fantasy-amap.github.io/fantasy-talking/
  • 代码:https://github.com/Fantasy-AMAP/fantasy-talking

论文介绍

从单一静态肖像创建逼真的可动画化身仍然颇具挑战性。现有方法通常难以捕捉细微的面部表情、相关的整体身体运动以及动态背景。为了突破这些限制,我们提出了一个新颖的框架,该框架利用预训练的视频扩散变换模型来生成具有可控运动动态的高保真、连贯的说话肖像。我们工作的核心是一种双阶段视听对齐策略。在第一阶段,我们采用片段级训练方案,通过对齐整个场景(包括参考肖像、上下文对象和背景)中的音频驱动动态来建立连贯的全局运动。在第二阶段,我们使用唇部追踪掩模在帧级别优化唇部运动,确保与音频信号的精确同步。为了在不影响运动灵活性的情况下保留身份,我们用以面部为中心的交叉注意力模块替换了常用的参考网络,该模块可有效地在整个视频中保持面部一致性。此外,我们集成了一个运动强度调制模块,可以精确控制表情和肢体运动强度,从而实现对肖像运动(而不仅仅是唇部运动)的可控操控。大量实验结果表明,我们提出的方法能够实现更高的质量,并具有更好的真实感、连贯性、运动强度和身份保留。

架构概述

FantasyTalking 基于 Wan2.1 视频扩散变换器模型构建,旨在生成高度逼真且视觉连贯的说话肖像。我们的方法利用双阶段视音频对齐训练流程,有效捕捉音频信号与唇部运动、面部表情以及肢体动作之间的关系。为了增强生成视频中身份的一致性,我们提出了一种以面部为中心的方法,以准确保留身份特征。此外,我们还利用运动网络控制面部表情和肢体动作的幅度,确保动画自然多样。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~


没有评论:

发表评论

企业级智能助手平台开源:一个完整的智能助手、医疗、PDF、旅行规划等

一个完整的智能助手、医疗、PDF、旅行规划等源代码https://www.gitpp.com/grandpp/ 一个完整的智能助手、医疗、PDF、旅行规划等 源代码 https://www.gitpp.com/grandpp/grand-ai-hub 可以私有化部署,为企业内...