2025年9月14日星期日

数字人技术再升级!EchoMimicV3:13亿参数,打造统一的多模态和多任务人体动画,开启人体动画新纪元。

在人体动画研究领域,EchoMimic 系列一直致力于突破创新,为逼真且高效的人体动画生成不断探索。即使与规模为其十倍的模型相比,EchoMimicV3 仍然保持着竞争力。

在人体动画研究领域,EchoMimic 系列一直致力于突破创新,为逼真且高效的人体动画生成不断探索。此前,EchoMimicV1 与 V2 版本已凭借独特的技术思路和出色表现,在人体动画研究中崭露头角,吸引了众多研究者的目光,也为后续发展奠定了坚实基础。在之前的文章中已经给大家介绍过,感兴趣的小伙伴可以点击下面链接阅读,撰写不易,欢迎大家点赞关注~

蚂蚁集团发布EchoMimic:音频+面部标志,让你的肖像"活"起来!

升级版本的EchoMimicV2来了!一张半身照+音频,就能生成带手势的数字人视频。

然而,当下人体动画研究仍面临诸多挑战。近期基于大规模视频模型的研究虽能实现逼真效果,但推理速度慢、计算需求高的问题,严重限制了其实际应用。而且传统研究采用每个动画任务配备单独模型的方式,在多任务场景下不仅成本大幅增加,更让困境雪上加霜。

在此背景下,EchoMimicV3 携革新之势惊艳登场。作为统一多任务和多模态人体动画的高效框架,它以创新的三重设计—任务集范式、模态集范式及新颖训练推理策略,直击行业痛点,有望为人体动画研究带来全新变革,接下来让我们一同深入了解它的独特魅力。

EchoMimicV1:通过可编辑的地标调节实现逼真的音频驱动肖像动画。 EchoMimicV2:打造引人注目、简化且半身的人体动画。 EchoMimicV3:13亿参数,打造统一的多模态和多任务人体动画。

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2507.03905
  • 项目:https://antgroup.github.io/ai/echomimic_v3
  • 模型:https://huggingface.co/BadToBest/EchoMimicV3
  • 代码:https://github.com/antgroup/echomimic_v3
  • ModelScope:https://modelscope.cn/models/BadToBest/EchoMimicV3

unsetunset论文阅读unsetunset

图片近期关于人体动画的研究通常采用大规模视频模型,从而实现更逼真的效果。然而,此类方法的实际应用受到推理速度慢和计算需求高的限制。此外,传统研究通常为每个动画任务使用单独的模型,这增加了多任务场景下的成本,并加剧了这一困境。

EchoMimicV3 是一个统一多任务和多模态人体动画的高效框架。EchoMimicV3 的核心是一个三重设计:任务集 (Soup-of-Tasks) 范式、模态集 (Soup-of-Modals) 范式以及一种新颖的训练和推理策略。任务集利用多任务掩码输入和一种反直觉的任务分配策略,在避免多模型难题的情况下实现多任务收益。

同时,Soup-of-Modals 引入了 Coupled-Decoupled 多模态交叉注意力模块来注入多模态条件,并辅以多模态时间步长相位感知动态分配机制来调节多模态混合。此外,我们还提出了负向直接偏好优化 (Negative Direct Preference Optimization)、相位感知负向无分类器引导 (CFG) 和长视频 CFG,以确保稳定的训练和推理。大量的实验和分析表明,EchoMimicV3 的最小模型规模仅为 13 亿个参数,在定量和定性评估中均取得了具有竞争力的性能。

unsetunset方法概述unsetunset

图片EchoMimicV3使人体动画更快、质量更高、泛化能力更强,并将各种任务整合到一个模型中。EchoMimicV3 是一个统一多任务和多模态人体动画的高效框架。EchoMimicV3 的核心在于三重设计: Soup-of-Tasks 范式、Soup-of-Modals 范式和新颖的训练和推理策略。Soup -of-Tasks利用多任务 mask 输入和反直觉的任务分配策略来实现多任务收益而没有多模型痛苦。同时, Soup-of-Modals引入了耦合-解耦多模态交叉注意模块来注入多模态条件,并辅以时间步长相位感知多模态分配机制来动态调节多模态混合。此外,我们提出了负向直接偏好优化和相位感知负向无分类器引导,以确保稳定的训练和推理。大量实验和分析表明,EchoMimicV3 的最小模型大小为13 亿个参数,在定量和定性评估中均取得了有竞争力的表现。

unsetunset实验结果unsetunset

图片
图片

unsetunset结论unsetunset

论文提出的高效框架 EchoMimicV3 可用于在一个 13 亿规模的模型中掌握多任务、多模态人体动画。首先提出了一种 Soup-of-Tasks 范式来统一和分配多个任务。此外开发了一种名为负向动态规划 (DPO) 的新训练策略,并将其融入监督微调 (SFT) 过程中,以动态地减少不良行为。还提出了创新的推理策略,包括相位感知负向增强卷积神经网络 (CFG) 和长视频卷积神经网络 (CFG),分别用于增强生动性和支持长视频生成。大量实验表明,

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

OCR 文档识别赛道,新王诞生!

伴随着大模型与视觉识别技术的迅猛发展,无论是企业还是个人对电子化办公的需求都在持续攀升,围绕 PDF 文档的解析还原能力也正在从 "能用" 向 "好用" 迈进。 在发票报销、合同归档、学术论文整理、复杂表格抽取、竖版古籍提取等众多的实际...