2025年3月11日星期二

Magic Mirror:可从单个参考图像生成电影级质量身份一致性和自然运动视频



Magic Mirror 可以生成合成身份配对的视频数据。该框架利用视频扩散模型,能够在保持身份一致性的同时,生成具有电影级质量和动态运动的视频。Magic Mirror 根据 ID 参考图像生成文本转视频结果。每对视频显示 24 帧(总共 49 帧),其对应的面部参考显示在左下角。

unsetunset相关链接unsetunset

  • 论文:http://arxiv.org/abs/2501.03931v1
  • 主页:https://julianjuaner.github.io/projects/MagicMirror/

unsetunset论文介绍unsetunset

Magic Mirror 是一个用于生成具有电影级质量和动态运动的身份保留视频的框架。虽然视频扩散模型的最新进展在文本到视频生成方面表现出了令人印象深刻的能力,但在产生自然运动的同时保持一致的身份仍然具有挑战性。以前的方法要么需要针对个人进行微调,要么难以平衡身份保留与运动多样性。

Magic Mirror基于视频扩散变换器,引入了三个关键组件:

  1. 双分支面部特征提取器,可同时捕获身份和结构特征;
  2. 具有条件自适应规范化的轻量级跨模态适配器,可实现有效的身份集成;
  3. 结合合成身份对和视频数据的两阶段训练策略。

大量实验表明Magic Mirror 有效地平衡了身份一致性和自然运动,在多个指标上优于现有方法,同时只需添加最少的参数。

Magic Mirror 可生成动态面部动作。由于身份保留约束较强,IDAnimator 和 Video Ocean 的运动范围有限。Magic Mirror 在保持参考身份保真度的同时,实现了更加动态的面部表情。

unsetunset方法unsetunset

Magic Mirror 概述。 该框架采用双分支特征提取系统,包括 ID 和面部感知器,然后是跨模态适配器,用于基于 DiT 的视频生成。通过优化火焰标记的可训练模块,我们的方法可以有效地整合面部特征,实现受控的视频合成,同时保持模型效率。

Magic Mirror的方法可分为以下几个关键组成部分:

  1. 双分支面部特征提取器:该组件同时提取身份特征和结构信息,确保在视频生成中保持高水平的身份一致性。
  2. 轻量级跨模态适配器:该适配器集成到视频扩散模型中,允许在生成过程中有效地结合面部特征和文本提示。
  3. 条件自适应归一化(CAN):此模块用于在生成过程中动态调整面部特征的分布,确保在不同视频帧之间保持一致的身份特征。
  4. 两阶段训练策略:首先在图像数据上进行预训练,以学习稳健的身份表示,然后在视频数据上进行微调,以确保面部表情的时间一致性。

DiT 块中的跨模态适配器,具有条件自适应归一化 (CAN),用于特定模态的特征调制和解耦注意力整合。