AI I024: 数字人技术再升级！EchoMimicV3：13亿参数，打造统一的多模态和多任务人体动画，开启人体动画新纪元。

在人体动画研究领域，EchoMimic 系列一直致力于突破创新，为逼真且高效的人体动画生成不断探索。即使与规模为其十倍的模型相比，EchoMimicV3 仍然保持着竞争力。

在人体动画研究领域，EchoMimic 系列一直致力于突破创新，为逼真且高效的人体动画生成不断探索。此前，EchoMimicV1 与 V2 版本已凭借独特的技术思路和出色表现，在人体动画研究中崭露头角，吸引了众多研究者的目光，也为后续发展奠定了坚实基础。在之前的文章中已经给大家介绍过，感兴趣的小伙伴可以点击下面链接阅读，撰写不易，欢迎大家点赞关注~

蚂蚁集团发布EchoMimic：音频+面部标志，让你的肖像"活"起来！

升级版本的EchoMimicV2来了！一张半身照+音频，就能生成带手势的数字人视频。

然而，当下人体动画研究仍面临诸多挑战。近期基于大规模视频模型的研究虽能实现逼真效果，但推理速度慢、计算需求高的问题，严重限制了其实际应用。而且传统研究采用每个动画任务配备单独模型的方式，在多任务场景下不仅成本大幅增加，更让困境雪上加霜。

在此背景下，EchoMimicV3 携革新之势惊艳登场。作为统一多任务和多模态人体动画的高效框架，它以创新的三重设计—任务集范式、模态集范式及新颖训练推理策略，直击行业痛点，有望为人体动画研究带来全新变革，接下来让我们一同深入了解它的独特魅力。

EchoMimicV1：通过可编辑的地标调节实现逼真的音频驱动肖像动画。 EchoMimicV2：打造引人注目、简化且半身的人体动画。 EchoMimicV3：13亿参数，打造统一的多模态和多任务人体动画。

unsetunset相关链接unsetunset

论文：https://arxiv.org/pdf/2507.03905
项目：https://antgroup.github.io/ai/echomimic_v3
模型：https://huggingface.co/BadToBest/EchoMimicV3
代码：https://github.com/antgroup/echomimic_v3
ModelScope:https://modelscope.cn/models/BadToBest/EchoMimicV3

unsetunset论文阅读unsetunset

近期关于人体动画的研究通常采用大规模视频模型，从而实现更逼真的效果。然而，此类方法的实际应用受到推理速度慢和计算需求高的限制。此外，传统研究通常为每个动画任务使用单独的模型，这增加了多任务场景下的成本，并加剧了这一困境。

EchoMimicV3 是一个统一多任务和多模态人体动画的高效框架。EchoMimicV3 的核心是一个三重设计：任务集 (Soup-of-Tasks) 范式、模态集 (Soup-of-Modals) 范式以及一种新颖的训练和推理策略。任务集利用多任务掩码输入和一种反直觉的任务分配策略，在避免多模型难题的情况下实现多任务收益。

同时，Soup-of-Modals 引入了 Coupled-Decoupled 多模态交叉注意力模块来注入多模态条件，并辅以多模态时间步长相位感知动态分配机制来调节多模态混合。此外，我们还提出了负向直接偏好优化 (Negative Direct Preference Optimization)、相位感知负向无分类器引导 (CFG) 和长视频 CFG，以确保稳定的训练和推理。大量的实验和分析表明，EchoMimicV3 的最小模型规模仅为 13 亿个参数，在定量和定性评估中均取得了具有竞争力的性能。

unsetunset方法概述unsetunset

EchoMimicV3使人体动画更快、质量更高、泛化能力更强，并将各种任务整合到一个模型中。EchoMimicV3 是一个统一多任务和多模态人体动画的高效框架。EchoMimicV3 的核心在于三重设计： Soup-of-Tasks 范式、Soup-of-Modals 范式和新颖的训练和推理策略。Soup -of-Tasks利用多任务 mask 输入和反直觉的任务分配策略来实现多任务收益而没有多模型痛苦。同时， Soup-of-Modals引入了耦合-解耦多模态交叉注意模块来注入多模态条件，并辅以时间步长相位感知多模态分配机制来动态调节多模态混合。此外，我们提出了负向直接偏好优化和相位感知负向无分类器引导，以确保稳定的训练和推理。大量实验和分析表明，EchoMimicV3 的最小模型大小为13 亿个参数，在定量和定性评估中均取得了有竞争力的表现。

unsetunset实验结果unsetunset

unsetunset结论unsetunset

论文提出的高效框架 EchoMimicV3 可用于在一个 13 亿规模的模型中掌握多任务、多模态人体动画。首先提出了一种 Soup-of-Tasks 范式来统一和分配多个任务。此外开发了一种名为负向动态规划 (DPO) 的新训练策略，并将其融入监督微调 (SFT) 过程中，以动态地减少不良行为。还提出了创新的推理策略，包括相位感知负向增强卷积神经网络 (CFG) 和长视频卷积神经网络 (CFG)，分别用于增强生动性和支持长视频生成。大量实验表明，

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

AI I024

2025年9月14日星期日

数字人技术再升级！EchoMimicV3：13亿参数，打造统一的多模态和多任务人体动画，开启人体动画新纪元。

在人体动画研究领域，EchoMimic 系列一直致力于突破创新，为逼真且高效的人体动画生成不断探索。即使与规模为其十倍的模型相比，EchoMimicV3 仍然保持着竞争力。

unsetunset相关链接unsetunset

unsetunset论文阅读unsetunset

unsetunset方法概述unsetunset

unsetunset实验结果unsetunset

unsetunset结论unsetunset

没有评论:

发表评论

OCR 文档识别赛道，新王诞生！