在人体动画研究领域,EchoMimic 系列一直致力于突破创新,为逼真且高效的人体动画生成不断探索。即使与规模为其十倍的模型相比,EchoMimicV3 仍然保持着竞争力。
在人体动画研究领域,EchoMimic 系列一直致力于突破创新,为逼真且高效的人体动画生成不断探索。此前,EchoMimicV1 与 V2 版本已凭借独特的技术思路和出色表现,在人体动画研究中崭露头角,吸引了众多研究者的目光,也为后续发展奠定了坚实基础。在之前的文章中已经给大家介绍过,感兴趣的小伙伴可以点击下面链接阅读,撰写不易,欢迎大家点赞关注~
蚂蚁集团发布EchoMimic:音频+面部标志,让你的肖像"活"起来!
升级版本的EchoMimicV2来了!一张半身照+音频,就能生成带手势的数字人视频。
然而,当下人体动画研究仍面临诸多挑战。近期基于大规模视频模型的研究虽能实现逼真效果,但推理速度慢、计算需求高的问题,严重限制了其实际应用。而且传统研究采用每个动画任务配备单独模型的方式,在多任务场景下不仅成本大幅增加,更让困境雪上加霜。
在此背景下,EchoMimicV3 携革新之势惊艳登场。作为统一多任务和多模态人体动画的高效框架,它以创新的三重设计—任务集范式、模态集范式及新颖训练推理策略,直击行业痛点,有望为人体动画研究带来全新变革,接下来让我们一同深入了解它的独特魅力。
EchoMimicV1:通过可编辑的地标调节实现逼真的音频驱动肖像动画。 EchoMimicV2:打造引人注目、简化且半身的人体动画。 EchoMimicV3:13亿参数,打造统一的多模态和多任务人体动画。
相关链接
论文:https://arxiv.org/pdf/2507.03905 项目:https://antgroup.github.io/ai/echomimic_v3 模型:https://huggingface.co/BadToBest/EchoMimicV3 代码:https://github.com/antgroup/echomimic_v3 ModelScope:https://modelscope.cn/models/BadToBest/EchoMimicV3
论文阅读
近期关于人体动画的研究通常采用大规模视频模型,从而实现更逼真的效果。然而,此类方法的实际应用受到推理速度慢和计算需求高的限制。此外,传统研究通常为每个动画任务使用单独的模型,这增加了多任务场景下的成本,并加剧了这一困境。
EchoMimicV3 是一个统一多任务和多模态人体动画的高效框架。EchoMimicV3 的核心是一个三重设计:任务集 (Soup-of-Tasks) 范式、模态集 (Soup-of-Modals) 范式以及一种新颖的训练和推理策略。任务集利用多任务掩码输入和一种反直觉的任务分配策略,在避免多模型难题的情况下实现多任务收益。
同时,Soup-of-Modals 引入了 Coupled-Decoupled 多模态交叉注意力模块来注入多模态条件,并辅以多模态时间步长相位感知动态分配机制来调节多模态混合。此外,我们还提出了负向直接偏好优化 (Negative Direct Preference Optimization)、相位感知负向无分类器引导 (CFG) 和长视频 CFG,以确保稳定的训练和推理。大量的实验和分析表明,EchoMimicV3 的最小模型规模仅为 13 亿个参数,在定量和定性评估中均取得了具有竞争力的性能。
方法概述
EchoMimicV3使人体动画更快、质量更高、泛化能力更强,并将各种任务整合到一个模型中。EchoMimicV3 是一个统一多任务和多模态人体动画的高效框架。EchoMimicV3 的核心在于三重设计: Soup-of-Tasks 范式、Soup-of-Modals 范式和新颖的训练和推理策略。Soup -of-Tasks利用多任务 mask 输入和反直觉的任务分配策略来实现多任务收益而没有多模型痛苦。同时, Soup-of-Modals引入了耦合-解耦多模态交叉注意模块来注入多模态条件,并辅以时间步长相位感知多模态分配机制来动态调节多模态混合。此外,我们提出了负向直接偏好优化和相位感知负向无分类器引导,以确保稳定的训练和推理。大量实验和分析表明,EchoMimicV3 的最小模型大小为13 亿个参数,在定量和定性评估中均取得了有竞争力的表现。
实验结果
结论
论文提出的高效框架 EchoMimicV3 可用于在一个 13 亿规模的模型中掌握多任务、多模态人体动画。首先提出了一种 Soup-of-Tasks 范式来统一和分配多个任务。此外开发了一种名为负向动态规划 (DPO) 的新训练策略,并将其融入监督微调 (SFT) 过程中,以动态地减少不良行为。还提出了创新的推理策略,包括相位感知负向增强卷积神经网络 (CFG) 和长视频卷积神经网络 (CFG),分别用于增强生动性和支持长视频生成。大量实验表明,
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论