2026年1月20日星期二

CoDance:解绑-重绑范式实现多角色动画

港大与蚂蚁等提出CoDance框架,通过Unbind-Rebind策略打破姿态与角色的刚性空间绑定,结合语义与空间重绑,实现任意数量、类型、位置的角色同屏动画。在多项指标上达到SOTA,泛化能力强。

    点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Shuai Tan等

解读:AI生成未来
图片
论文链接https://arxiv.org/abs/2601.11096v1n
工程链接https://lucaria-academy.github.io/CoDance/

图1。由CoDance生成的多主体动画。给定一个(可能错位的)驱动姿势序列和一张多主体参考图像,CoDance生成协调且可姿势控制的群舞,无需每个主体的空间对齐。
图1。由CoDance生成的多主体动画。给定一个(可能错位的)驱动姿势序列和一张多主体参考图像,CoDance生成协调且可姿势控制的群舞,无需每个主体的空间对齐。

亮点直击

  • 首创性框架CoDance,这是首个能够基于单一可能未对齐的姿态序列,同时实现角色图像动画化中"四个任意"属性的方法:任意主体类型、任意数量、任意空间位置和任意姿态。
  • Unbind-Rebind 范式:设计了一种新颖的"解绑-重绑"(Unbind-Rebind)策略,系统性地将姿态与参考图像中过硬的空间绑定解耦,并通过语义和空间线索重新建立控制。
  • 构建了全新的多主体动画基准 CoDanceBench,填补了该领域评估标准的空白。
  • SOTA:在 CoDanceBench 和现有的Follow-Your-Pose-V2 基准上,该方法在各项指标上均取得了SOTA性能,展现了强大的泛化能力。

解决的问题

  • 多主体生成的局限性:现有的角色动画方法(如 Animate Anyone, MagicAnimate 等)主要针对单人动画设计,难以处理任意数量的主体。
  • 空间未对齐难题:现有方法依赖于姿态与参考图像之间严格的像素级空间绑定(rigid spatial binding)。当参考图像与驱动姿态在空间上不一致(misalignment)时(例如参考图中有两个角色,而姿态只有一个,或者位置不对应),模型容易失效,产生伪影或错误的身份绑定。
  • 目标重定向失败:在尝试解耦空间位置后,模型往往无法将动作准确地重新绑定(rebind)到预期的特定主体上,导致背景被错误驱动或主体丢失。
图2。CoDance动机。虽然在单人动画方面表现出色,但以往方法在处理多主体时因参考姿势与目标姿势绑定僵硬导致输出不匹配而失效。相比之下,我们的解绑-再绑定方法成功将运动与外观脱钩,产生了令人信服的结果。
图2。CoDance动机。虽然在单人动画方面表现出色,但以往方法在处理多主体时因参考姿势与目标姿势绑定僵硬导致输出不匹配而失效。相比之下,我们的解绑-再绑定方法成功将运动与外观脱钩,产生了令人信服的结果。

提出的方案

  • 核心架构:基于 Diffusion Transformer (DiT) 的 Unbind-Rebind 框架。
  • Unbind(解绑)模块
    • 引入姿态偏移编码器(Pose Shift Encoder)
    • Pose Unbind:在输入层面,对骨架位置/大小进行随机变换 ,打破物理对齐。
    • Feature Unbind:在特征层面,对姿态特征进行随机复制和叠加,迫使模型学习位置无关的动作语义。
  • Rebind(重绑)模块
    • 语义重绑:引入文本分支,利用混合数据训练策略(联合训练动画数据  和大规模文生视频数据 ),通过文本提示明确指定动画的主体身份和数量。
    • 空间重绑:利用离线分割模型(如 SAM)获取参考图像的主体掩码(Mask),作为外部条件将动作精确限制在目标区域内。

应用的技术

  • 主干网络:采用 DiT (Diffusion Transformer) 作为基础生成模型,利用其可扩展性处理视频生成。
  • 数据增强与训练策略
    • 随机平移与缩放增强。
    • 特征层面的 Region Duplication(区域复制)。
    • 混合训练(Mixed-data training):以概率  训练动画任务,以  训练通用文生视频(T2V)任务。
  • 多模态条件注入
    • umT5 Encoder:处理文本提示,通过 Cross-Attention 注入。
    • Mask Encoder:处理 SAM 生成的主体掩码,通过卷积提取特征并与噪声潜在变量逐元素相加(Element-wise Summation)。
    • VAE Encoder:提取参考图像  的潜在特征 
    • LoRA:用于微调预训练的 T2V 模型。

达到的效果

  • 定量指标提升:在视频质量、身份保持(Identity Preservation)和时序一致性(Temporal Consistency)等指标上,显著优于 MagicAnimate, Animate Anyone, UniAnimate 等 SOTA 方法。
  • 定性表现优异:能够生成协调的群舞,支持从单人到多人的泛化,且不需要针对每个主体进行空间预对齐。即使在参考图像复杂、主体数量多变的情况下,也能保持主体身份特征和动作的准确性。用户调研显示其偏好率大幅领先。

方法

如图 3 所示,CoDance 的流程主要包含以下步骤。给定参考图像 、驱动姿态序列  和文本提示 ,本工作首先获得参考图像的主体掩码 ,并将驱动动作传播到任意数量、不同类型的主体上,同时保持与参考图像的身份一致性。与以往关注近乎对齐输入的工作不同,本文明确处理了  与  之间的未对齐、非人类/拟人化角色以及多主体场景。

图3。CoDance流程
图3。CoDance流程

预备知识

扩散模型。扩散模型是生成模型,通过反转加噪过程来生成数据。这涉及两个阶段:逐渐向干净数据  添加高斯噪声的前向过程,以及学习去除噪声的反向过程。一个关键属性是任何噪声样本  都可以直接从  获得。生成任务通过训练一个网络  来完成,该网络在给定时间步  和可选条件  的情况下,从噪声输入  中预测噪声 。模型通过以下目标函数进行优化:

对于条件生成,通常使用无分类器引导(classifier-free guidance)来增强条件  的影响。

扩散 Transformer (DiT) 。虽然早期的扩散模型使用 U-Net 架构,但 Diffusion Transformer (DiT)证明了标准 Transformer 可以作为一个高效且可扩展的主干网络。在 DiT 框架中,输入图像首先被划分为不重叠的补丁(patches),类似于 Vision Transformer (ViT)。这些补丁与时间步  和条件 (例如姿态骨架)的嵌入一起被转换为标记(tokens)序列。然后,该标记序列由 Transformer 块处理以预测输出噪声。

解绑-重绑

如图 2 所示,以前的方法通常强制参考图像与目标姿态之间存在刚性的空间绑定。只要类人参考图像与目标姿态在空间上对齐,这种范式在单人动画中就能生成正确的结果。然而,它们受限于不匹配的情况,例如参考图像中的主体数量与目标姿态不同。由于依赖刚性空间对齐,模型无法正确动画化参考图像中的主体。相反,它会在相应的空间区域幻觉出一个新的、与姿态对齐的人。为了克服这一根本限制,本文提出了一种新范式:Unbind-Rebind(解绑-重绑),它打破了因输入不匹配导致的强制空间对齐,并重新建立动作与身份之间的正确对应关系。

Unbind(解绑)。Unbind 模块旨在拆除参考图像与姿态之间这种僵化的空间约束。本文不再依赖简单的空间映射,而是迫使模型(特别是姿态编码器和扩散网络)去学习动作本身的抽象语义理解。为此,本文提出了新颖的姿态偏移编码器(Pose Shift Encoder),它由 Pose Unbind(姿态解绑) 和 Feature Unbind(特征解绑) 模块组成,分别在输入层级和特征层级增强模型的理解能力。其核心洞察在于,在每个训练步骤中,有意且随机地破坏参考图像  与目标姿态  之间的自然对齐,从而确保模型无法依赖僵化的空间对应关系。具体而言,Pose Unbind 模块作用于输入层级。在每个训练步骤中,本文首先按照先前的方法采样参考图像  及其对应的驱动姿态 。然而,本文并不直接将这对数据输入模型,而是对驱动姿态  应用一系列变换。打破空间关联最直观的方法是改变姿态的位置和比例。因此,在每一步中,本文随机平移骨架的位置,即 ,并随机缩放其大小,进一步将其与原始空间位置解耦。

然而,仅靠 Pose Unbind 主要增强的是姿态编码器解释姿态变化的能力。核心的生成过程严重依赖于扩散网络。为此,本文引入了 Feature Unbind 模块,它作用于特征层级。在变换后的姿态通过姿态编码器后,本文对生成的姿态特征应用进一步的增强。首先,应用类似的随机平移。此外,为了迫使扩散模型适应特征空间内的各种姿态配置,本文提取对应于姿态的特征区域,将其随机复制,并将这些副本叠加到原始特征图上。这一过程迫使扩散模型发展出对姿态更鲁棒的语义理解,并增强其在复杂条件下的生成能力。

Rebind(重绑)。经过 Unbind 操作后,虽然模型能够从姿态图像中掌握动作的语义含义,但它缺少了指定动画目标主体的关键信息,因为原始的空间对齐已被特意打破。为了解决这个问题,本文引入了 Rebind 模块,它可以智能地将理解到的动作与参考图像中的正确主体重新关联起来。具体来说,本文通过两个互补的层面来执行 Rebind:语义(Semantic) 和 空间(Spatial)

语义角度来看,本文引入了一个文本驱动的引导分支,利用输入文本提示  明确指定参考图像中需要动画化的主体身份和数量。如图 3 所示,参考图像包含多个元素,其中包括五个拟人化角色作为动画目标。相应的提示词(如"五个气泡在跳舞")经过文本编码器处理后,输入到 DiT 模块中以提供语义指导。然而,仅在具有统一文本提示的动画数据集()上进行训练会带来一个重大挑战:模型倾向于过拟合提示词,学习到虚假的相关性并忽略文本指导,这严重损害了推理时的泛化能力。为了抵消这一点,本文提出了一种混合数据训练策略(mixed-data training strategy)。本文加入了一个辅助的、多样化的"文本-图像-视频"(TI2V)数据集(),并分别以概率  和  在角色动画任务和 T2V 任务之间交替训练。这种双目标训练迫使模型超越简单的模式匹配,发展出对文本条件的鲁棒理解。反过来,这也使其能够在推理过程中根据任意文本提示,准确地从参考图像中重新绑定指定的主体。

虽然语义指导很强大,但它不能解决"图-底"模糊(figure-ground ambiguity)的挑战,特别是对于具有复杂或非常规形态的主体。这种模糊可能导致模型无法准确分割主体,导致背景被错误动画化或主体部分缺失。为了强制精确的空间控制,本文引入了空间重绑机制,提供一个参考掩码  来明确定义动画区域。这种直接的空间重绑确保动画严格限制在指定的边界内,有效地减轻分割错误并保持主体的结构完整性。

框架与实现细节

鉴于先前工作的成功,CoDance 建立在常用的 Diffusion Transformer (DiT)之上。如图 3 所示,给定一个参考图像 ,本文采用 VAE 编码器提取其潜在表示 。遵循文献[64]的方法,该潜在表示随后直接作为去噪网络  输入的一部分。为了促进精确的外观重绑(appearance rebind),本文利用预训练的分割模型(例如 SAM)从  中提取对应的主体掩码 。该掩码随后被输入到一个由堆叠的 2D 卷积层组成的掩码编码器(Mask Encoder)中。生成的掩码特征随后通过逐元素求和的方式融入到噪声潜在向量中。同时,本文引入 umT5 Encoder进行语义理解。文本特征通过 DiT 块内的交叉注意力层整合到生成过程中。对于驱动视频 ,本文采用前述的姿态偏移编码器。模型初始化自预训练的 T2V 模型,并使用 LoRA 进行微调。最后,VAE 解码器重建视频。注意,Unbind 模块和混合数据训练仅应用于训练阶段。

实验

用户调研

为了量化感知质量,本文进行了一项全面的用户调研。该调研涉及向 10 名参与者进行的成对 A/B 偏好测试。本文使用了 20 个不同的身份和 20 个驱动视频,从 9 种评估方法中分别生成了 20 个动画。在每次试验中,参与者会看到两个由不同方法生成的并排视频,并被要求根据三个标准选择更好的结果:(1)视频质量,(2)身份保持 ,以及 (3)时序一致性。如表 3 总结所示,CoDance 在所有三个标准上都取得了最高的偏好率,证明了其明显的感知优势。具体数据如下:

  • Video Quality: 0.90 (CoDance) vs 0.79 (UniAnimateDiT)
  • Identity Preservation: 0.88 (CoDance) vs 0.50 (UniAnimateDiT)
  • Temporal Consistency: 0.83 (CoDance) vs 0.78 (UniAnimateDiT)

图片图片

消融实验

本节展示了消融研究,旨在分离 CoDance 中 Unbind 和 Rebind 模块的贡献与必要性。实验设计为渐进式消融:

  1. Baseline (基线):移除 Unbind 和 Rebind 模块。模型按照刚性对齐范式(遵循[64])训练,以动画化参考图像。
  2. B + Unbind:在基线之上,添加 Unbind 模块以打破参考图像与驱动姿态之间的刚性对齐。
  3. B + Unbind + Spatial Rebind:在 (2) 的基础上,结合掩码条件进行空间重绑。
  4. Full Model (完整模型):包含所有模块。

如图 5 所示:

  • Baseline:受限于刚性对齐,合成了一个与驱动姿态在空间上对齐的新角色,从而丢失了参考身份。
  • B + Unbind:引入 Unbind 模块修正了身份问题,保留了参考身份并展示了成功的解耦。然而,它无法生成连贯的动作,表明无法定位动画的目标区域。
  • B + Unbind + Spatial Rebind:添加空间重绑解决了定位问题,动画化了正确的区域。然而,它将多个主体视为单一的复合实体,导致碎片化的动画(例如,动画化每个角色的一只手,而不是一个角色的全身)。
  • Full Model:集成了 Unbind 和完整的 Rebind 机制(包含语义重绑),取得了优异的结果。

这一递进过程验证了框架中每个提议模块的关键性和互补作用。

图4。与SOTA方法的定性比较。
图4。与SOTA方法的定性比较。

总结

CoDance,一种为跨越任意主体数量、类型和空间布局的鲁棒动画而设计的新颖框架。我们识别出,在多主体场景中普遍存在的身份退化和动作分配错误源于现有方法中的刚性空间绑定。为了克服这一点,我们提出了 Unbind-Rebind(解绑-重绑)范式,该范式首先将动作从其严格的空间上下文中解绑,然后使用互补的语义和空间指导将此动作重新绑定到正确的主体上。通过这种方式,CoDance 展示了强大的泛化能力和鲁棒性,实现了灵活的多主体动画。在 Follow-Your-Pose-V2 基准和我们新引入的 CoDanceBench 上的广泛实验证明,我们提出的方法优于 SOTA 方法。

参考文献

[1] CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

离线翻译神器Argos Translate:40+语种,无网也能精准翻译

开源离线翻译工具Argos Translate,支持40余种语言本地互译,无需网络连接。智能语言转换功能实现间接翻译,兼顾隐私与便捷,是出行、无网络环境的翻译利器。 推荐阅读: 70.9K Star!官方ai开发指南!建议收藏! 推荐:一个识别、翻译、阅读与智能分析工具!强到...