AI I024: 多人视频生成技术新突破！清华提出 DanceTogether：从单张图像到多人互动视频生成，从此告别身份混淆。

在人工智能与计算机视觉领域，视频生成技术一直是研究的热点与难点。

在人工智能与计算机视觉领域，视频生成技术一直是研究的热点与难点。特别是多人互动视频的生成，要求系统能够在复杂多变的场景中，精准地捕捉并再现多个角色的动作、姿态以及他们之间的交互细节。由清华、北大、中科大、南大等学校联合发布了一种全新的解决方案——DanceTogether框架，它标志着可控多人互动视频生成技术迈出了重要一步。

一、研究背景与挑战

传统的视频生成系统在处理单人动作时表现尚可，但一旦涉及多人互动，尤其是需要保持每个角色身份一致性时，便显得力不从心。^现有方法大多采用逐帧合成再平滑处理的策略，这不仅难以保证长时间序列中的身份一致性，还容易出现交互细节丢失、角色身份混淆等问题。

二、DanceTogether框架介绍

DanceTogether 流程概述：一张参考图像和每个人的姿势/面具序列进入系统；MaskPoseAdapter 融合这些控制信号，MultiFace Encoder 注入身份令牌，视频传播主干网合成一个交互视频，为所有参与者保留一致的身份。

作为首个端到端的扩散框架，DanceTogether能够将单张参考图像和独立的多人姿态-掩码序列转化为长时段、高真实感的多人互动视频，同时严格保持每个角色的身份特征。

数据管理流程概述。通过人体追踪、使用 SAMURAI 生成遮罩、使用 DW-Pose 进行姿态估计以及 alpha 抠图来处理原始视频，从而生成每个人的标注。

核心创新点：

MaskPoseAdapter：通过融合稳定的追踪掩码与语义丰富的姿态热图，MaskPoseAdapter在每个去噪步骤中绑定"谁"与"如何动"，有效解决了身份漂移和外观混合的问题。
MultiFace Encoder：从单张图像中提取紧凑的身份标记，并在整个视频序列中保持外观一致性，确保每个角色的面部特征在长时间序列中保持不变。
Video Diffusion Backbone：利用对齐的姿态和掩码信号，合成高分辨率的视频片段，确保多人动作的一致性、物理合理性以及角色间的无漂移。

三、数据集与评估基准

为了训练和评估DanceTogether，研究团队构建了多个高质量的数据集：

PairFS-4K：包含26小时的双滑冰者视频，超过7000个独特身份，是首个大规模双人花样滑冰视频数据集。
HumanRob-300：一小时的人形机器人互动数据集，用于快速跨域迁移学习。
TogetherVideoBench：一个综合评估基准，包含身份一致性、交互连贯性和视频质量三个评估轨道，通过DanceTogEval-100测试套件全面评估视频生成性能。