2025年6月15日星期日

多人视频生成技术新突破!清华提出 DanceTogether:从单张图像到多人互动视频生成,从此告别身份混淆。

在人工智能与计算机视觉领域,视频生成技术一直是研究的热点与难点。




在人工智能与计算机视觉领域,视频生成技术一直是研究的热点与难点。特别是多人互动视频的生成,要求系统能够在复杂多变的场景中,精准地捕捉并再现多个角色的动作、姿态以及他们之间的交互细节。由清华、北大、中科大、南大等学校联合发布了一种全新的解决方案——DanceTogether框架,它标志着可控多人互动视频生成技术迈出了重要一步。

图片

相关链接:

  • 论文:https://arxiv.org/pdf/2505.18078
  • 项目:https://DanceTog.github.io/

一、研究背景与挑战

传统的视频生成系统在处理单人动作时表现尚可,但一旦涉及多人互动,尤其是需要保持每个角色身份一致性时,便显得力不从心。^现有方法大多采用逐帧合成再平滑处理的策略,这不仅难以保证长时间序列中的身份一致性,还容易出现交互细节丢失、角色身份混淆等问题。

二、DanceTogether框架介绍

图片DanceTogether 流程概述:一张参考图像和每个人的姿势/面具序列进入系统;MaskPoseAdapter 融合这些控制信号,MultiFace Encoder 注入身份令牌,视频传播主干网合成一个交互视频,为所有参与者保留一致的身份。

作为首个端到端的扩散框架,DanceTogether能够将单张参考图像和独立的多人姿态-掩码序列转化为长时段、高真实感的多人互动视频,同时严格保持每个角色的身份特征。

图片数据管理流程概述。通过人体追踪、使用 SAMURAI 生成遮罩、使用 DW-Pose 进行姿态估计以及 alpha 抠图来处理原始视频,从而生成每个人的标注。

核心创新点:

  1. MaskPoseAdapter:通过融合稳定的追踪掩码与语义丰富的姿态热图,MaskPoseAdapter在每个去噪步骤中绑定"谁"与"如何动",有效解决了身份漂移和外观混合的问题。
  2. MultiFace Encoder:从单张图像中提取紧凑的身份标记,并在整个视频序列中保持外观一致性,确保每个角色的面部特征在长时间序列中保持不变。
  3. Video Diffusion Backbone:利用对齐的姿态和掩码信号,合成高分辨率的视频片段,确保多人动作的一致性、物理合理性以及角色间的无漂移。

三、数据集与评估基准

为了训练和评估DanceTogether,研究团队构建了多个高质量的数据集:

  • PairFS-4K:包含26小时的双滑冰者视频,超过7000个独特身份,是首个大规模双人花样滑冰视频数据集。
  • HumanRob-300:一小时的人形机器人互动数据集,用于快速跨域迁移学习。
  • TogetherVideoBench:一个综合评估基准,包含身份一致性、交互连贯性和视频质量三个评估轨道,通过DanceTogEval-100测试套件全面评估视频生成性能。

四、实验结果与性能提升

"参考图像"行中的 RGB 图像是输入参考帧,该行中的两个姿态图对应于下方显示的推理结果。所有基线在处理位置交换和复杂的交互姿态时都表现出严重的身份漂移、交互细节丢失,甚至缺失主体。
图片
图片
图片
图片
图片

在TogetherVideoBench基准上的实验结果显示,DanceTogether在多个关键指标上均显著优于现有方法:

  • 身份一致性:HOTA指标提升12.6%,IDF1指标提升7.1%,MOTA指标提升5.9%。
  • 交互连贯性:MPJPE2D误差降低69%,OKS和PoseSSIM指标显著提升,表明动作更加精准、交互更加流畅。
  • 视频质量:FVD和FID指标显著降低,CLIP对齐效果提升,视觉真实感显著增强。

结语

DanceTogether框架的提出,标志着可控多人互动视频生成技术进入了一个新的发展阶段。通过融合先进的扩散模型与创新的条件适配器,DanceTogether不仅解决了现有技术中的诸多难题,还为未来的研究提供了新的方向。

DanceTogether不仅为影视制作、数字人动画、VR/AR行业带来了革命性的变化,还为具身智能研究提供了高保真度的训练数据。然而,随着技术的普及,如何防止深度伪造、身份冒用和隐私侵犯等潜在风险,也成为了亟待解决的问题。


感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,关注我们,了解更多前沿科技动态!🚀

没有评论:

发表评论

Google DeepMind 发布最强视频生成工具 Veo 3, 可为作品添加音效、环境噪音、对话,文中附体验链接。

今天跟大家介绍谷歌的视频生成模型 Veo 3,可为作品添加音效、环境噪音甚至对话,所有音频均可原生生成。 今天跟大家介绍谷歌的视频生成模型 Veo 3,可为作品添加音效、环境噪音甚至对话,所有音频均可原生生成。它还能提供一流的音质,在物理效果、真实感和快速响应方面均表现卓越。...