添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
由南大、腾讯等提出的SteadyDancer 是一个强大的动画框架,基于图像到视频的范式,确保了稳健的首帧保留。与以往的参考到视频方法(这些方法通常会因实际应用中常见的时空错位而导致身份漂移)不同,SteadyDancer 能够生成高保真度且时间上一致的人体动画,在视觉质量和控制方面均优于现有方法,同时所需的训练资源也显著减少。
相关链接
论文:https://arxiv.org/pdf/2511.19320 代码:https://github.com/MCG-NJU/SteadyDancer 数据:https://huggingface.co/datasets/MCG-NJU/X-Dance 模型:https://huggingface.co/MCG-NJU/SteadyDancer-14B
介绍
在确保精确运动控制的同时保持首帧身份是人类图像动画领域的一项根本挑战。主流的参考到视频(R2V)范式中的图像到运动绑定过程忽略了实际应用中常见的关键时空错位,导致身份漂移和视觉伪影等问题。我们提出了SteadyDancer,一个基于图像到视频(I2V)范式的框架,它实现了协调一致的动画,并且是首个能够稳健地确保首帧身份保留的框架。首先,我们提出了一种条件协调机制来协调两个相互冲突的条件,从而在不牺牲保真度的前提下实现精确控制。其次,我们设计了协同姿态调制模块来生成与参考图像高度兼容的自适应且一致的姿态表示。最后,我们采用了一种分阶段解耦目标训练流程,该流程分层优化模型的运动保真度、视觉质量和时间一致性。实验表明,SteadyDancer 在外观保真度和运动控制方面均达到了最先进的性能,同时所需的训练资源比同类方法少得多。
动机
时空错位:我们识别并解决现实场景中常见的源图像和驾驶视频之间普遍存在的空间结构不一致和时间起始间隙问题,这些问题通常会导致生成的动画出现身份漂移。 图像到视频 (I2V) 与参考到视频 (R2V) 范式:R2V 范式将动画视为将参考图像绑定到驱动姿态。然而,这种对对齐约束的放宽在时空错位的情况下会失效,导致在空间不一致或时间起始间隙的情况下出现伪影和突变。相反,I2V 范式更胜一筹,因为它本质上保证了首帧的保留,并且其运动到图像对齐机制确保了从参考状态直接生成高保真且连贯的视频。
方法概述
SteadyDancer是一个基于图像到视频 (I2V) 范式的人体图像动画框架。首先,它采用条件协调机制来协调外观和运动条件,从而在不牺牲首帧保留的前提下实现精确控制。其次,它利用协同姿态调制模块来解决关键的时空错位问题。最后,我们采用了一种分阶段解耦目标训练流程,该流程分层优化模型,以提高运动保真度、视觉质量和时间一致性。
基准测试
为了弥补现有同源基准测试(例如 TikTok)在评估时空错位方面的不足,我们提出了 X-Dance,一个专注于应对这些挑战的新基准测试。X-Dance 基准测试由多种图像类别(男性/女性/卡通,以及上半身/全身镜头)和具有挑战性的驾驶视频(包含模糊和遮挡的复杂运动)构成。其精心设计的配对集有意引入了空间结构上的不一致性以及时间上的起始间隙,从而能够更稳健地评估模型在真实世界中的泛化能力。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论