AI I024: 北大提出高效视频生成框架Magic 1-For-1！一分钟即可生成1min时长的高质量视频！

计算机视觉最新论文

今日论文推荐

论文名：Magic 1-For-1: Generating One Minute Video Clips within One Minute

论文链接：https://arxiv.org/pdf/2502.07701

开源代码：https://magic-141.github.io/Magic-141/

导读

最近，扩散模型在生成高质量图像和视频方面表现出卓越性能，相较于传统的基于生成对抗网络（GAN）的方法，具有更广泛的多样性。然而，传统的扩散模型需要数百或数千步才能将噪声逐渐转换为结构化数据，这使得它们的计算成本高昂，限制了其实际应用。例如，最近的开源视频生成模型在没有额外优化的情况下，生成一个 5 秒的视频片段大约需要 8 个 GPU 和 15 分钟。

简介

在本技术报告中，我们介绍了魔法 1 对 1（Magic141），这是一种高效的视频生成模型，具有优化的内存消耗和推理延迟。其核心思想很简单：将文本到视频的生成任务分解为两个更简单的独立任务，用于扩散步骤蒸馏，即文本到图像的生成和图像到视频的生成。我们验证了，使用相同的优化算法，图像到视频的任务确实比文本到视频的任务更容易收敛。我们还探索了一系列优化技巧，从三个方面降低训练图像到视频（I2V）模型的计算成本：1）通过使用多模态先验条件注入来加速模型收敛；2）通过应用对抗步骤蒸馏来加快推理延迟；3）通过参数稀疏化来优化推理内存成本。利用这些技术，我们能够在 3 秒内生成 5 秒的视频片段。通过应用测试时滑动窗口，我们能够在一分钟内生成一分钟长的视频，视觉质量和运动动态显著改善，平均每生成 1 秒视频片段花费不到 1 秒。我们进行了一系列初步探索，以找出扩散步骤蒸馏过程中计算成本和视频质量之间的最佳权衡，并希望这能成为开源探索的一个良好基础模型。

方法与模型

图像先验生成我们使用基于扩散和基于检索的方法来获取图像。我们定义了一个统一的函数，它结合了基于扩散的生成和基于检索的增强：

其中表示初始噪声，是文本输入，是检索到的相关图像集，表示模型参数。检索函数正式定义为：

其中是图像语料库，和分别是文本和图像嵌入，是一个相似度函数（例如，余弦相似度）。检索到的图像在去噪过程中作为额外的条件信号：

其中是学习到的噪声预测模型，是步长，是噪声方差，且。这种检索增强的扩散过程确保生成的图像既保持高保真度又具有事实准确性。最近的方法，如检索增强扩散模型（RDM）[27] 和 kNN - 扩散 [29] 已经证明了这种方法的有效性，显著提高了生成图像的真实感和上下文对齐度。

图像先验注入和多模态引导设计图像到视频（I2V）任务是指以输入图像作为第一帧，生成与给定文本描述相匹配的视频。具体来说，文本到视频（T2V）模型以形状为的潜在张量作为输入，其中、分别对应压缩视频的帧数、通道数、高度和宽度。

与 Emu Video [10] 类似，为了融入图像条件，我们将视为视频的第一帧，并应用零填充来构建维度为的张量，如图 3 所示。此外，我们引入一个形状为的二进制掩码，其中第一个时间位置设置为 1，后续所有位置设置为 0。然后将潜在张量、填充后的张量和掩码沿通道维度拼接，形成模型的输入。

由于输入张量的通道维度从增加到，如图 3 所示，我们将模型的第一个卷积模块的参数从调整为。这里，和分别表示修改前后的输入通道数，是输出通道数，和分别对应卷积核的高度和宽度。为了保留 T2V 模型的表征能力，的前个输入通道从复制而来，而额外的通道初始化为零。I2V 模型在与 T2V 模型相同的数据集上进行预训练，以确保一致性。

为了进一步增强参考图像的语义对齐，我们通过视觉语言模型（VLM）文本编码器的视觉分支提取它们的嵌入，并将其与文本嵌入连接起来，如图 3 所示。这种整合提高了模型生成视频的能力，使其能够更好地捕捉图像和文本描述所提供的上下文信息。

图 3：Magic 1 - For - 1 整体架构。

1. 扩散蒸馏

扩散模型推理的迭代特性，以其多步采样过程为特征，给推理速度带来了显著的瓶颈。在像我们的 130 亿参数扩散模型 Magic 1 - For - 1 这样的大规模模型中，这个问题尤其严重，因为每个单独采样步骤的计算成本都很高。

图 4：模型加速技术概述，包括 DMD2 和 CFG 蒸馏。

如图 4 所示，我们通过实施双重蒸馏方法来应对这一挑战，结合了步数蒸馏和分类自由引导（CFG）蒸馏以实现更快的采样。对于步数蒸馏，我们采用了 DMD2，这是一种最先进的算法，旨在实现高效的分布对齐和加速采样。受分数蒸馏采样（SDS）[25]的启发，DMD2 通过涉及三个不同模型的协同训练范式促进步数蒸馏。这些模型包括：单/四步生成器，其参数进行迭代优化；真实视频模型，负责近似底层真实数据分布；以及虚假视频模型，用于估计生成（虚假）数据分布。至关重要的是，所有三个模型都从同一个预训练模型初始化，以确保一致性并简化训练过程。步数蒸馏的分布匹配目标可以用数学公式表示为：

这里，表示时间步处的视频潜变量，中表示少步生成器合成的输出，表示噪声调度。这种公式将传统的基于分数函数的分布匹配（标准 DMD2 中固有的）重新表述为一种新方法，该方法侧重于时间步的分布对齐。这种调整对于确保与 Magic 1 - For - 1 中采用的训练方法一致至关重要。此外，DMD2 需要实时更新以保证对虚假数据分布的准确近似。此更新由以下损失函数控制：

在实际实现中，训练 DMD2 需要同时使用三个模型，这使得即使在配备 8 个 GPU（每个 GPU 有 80GB 内存）的 2 个节点的 ZeRO3 配置下，也无法对模型进行标准训练。为了解决这一限制，我们建议利用 LoRA 来处理伪模型的参数更新。此外，我们观察到，直接使用标准的 DMD2 方法进行训练通常会导致训练崩溃。这个问题的出现是因为真实模型的输入来自少步生成器的输出，其数据分布与预训练阶段使用的训练数据分布有显著差异。为了缓解这个问题，我们采用了一个简单而有效的解决方案：将真实模型的参数稍微向伪模型的参数调整。这是通过调整与低秩分支相关的权重因子来实现的。这种调整有助于对齐数据分布，确保训练的稳定性。

在扩散模型的推理阶段，无分类器扩散引导（CFG） [14, 6] 经常在每个采样步骤中使用。CFG 通过在丢弃条件下进行额外计算，提高了生成结果相对于指定条件的保真度。为了消除这种计算开销并提高推理速度，我们实现了 CFG 蒸馏 [21]。我们定义了一个蒸馏目标，用于训练学生模型直接产生引导输出。具体来说，我们最小化以下关于时间步长和引导强度的期望：

其中

表示条件输出和无条件输出之间的线性插值预测。代表文本提示。在这个公式中，规定在训练期间均匀采样引导强度参数，这使得蒸馏后的模型能够有效地处理广泛的引导尺度，而无需重新训练。为了整合引导权重，我们将其作为额外输入提供给我们的学生模型。这个蒸馏过程有效地将传统的 CFG 计算浓缩为一个简化的前向传播过程。我们将整体蒸馏目标构建为两个损失项的加权和。CFG 蒸馏损失用于使学生模型的输出与教师模型的引导预测对齐，而基本预测损失确保学生模型保持教师模型的底层生成能力。因此，完整的蒸馏损失由下式给出：

在这里，是整体蒸馏损失的平衡系数。

2. 模型量化

我们利用最优量化（optimum - quanto）框架进行模型量化，采用仅对权重进行 8 位整数（int8）量化的方法来最小化模型的内存占用。该量化策略专门针对去噪网络，包括变换器（transformer）模块、文本编码器和视觉语言模型（VLM）编码器。量化过程将原始的 16 位脑浮点（bfloat16）权重映射为 8 位整数（int8）值。一种常见的方法是在转换之前将 bfloat16 值缩放到合适的范围。例如，可以确定权重张量中的最大绝对值，对所有权重进行缩放，使这个最大值对应于可表示的最大 int8 值（127 或 - 128），然后进行转换。这种缩放的简化示意图可以表示为：

其中表示原始的 bfloat16 权重，表示量化后的 int8 权重，表示权重张量中的最大绝对值。在实践中，可以使用更复杂的方法，如逐通道量化或量化感知训练，以获得更好的性能。为了减轻潜在的 CUDA 错误并确保推理过程中的数值稳定性，模型内的所有线性层在与量化后的 int8 权重进行矩阵乘法之前，首先将其输入转换为 bfloat16。这种 bfloat16 - int8 乘法有助于在仍受益于 int8 权重减少的内存占用的同时保持准确性。

在量化之前，模型的权重约占用 32GB。应用 int8 量化后，模型大小减少到约 16GB。在运行时，峰值内存使用量约为 30GB。然后，这个优化后的模型能够在消费级和专注于推理的 GPU 上运行，包括 RTX 5090、A10 和 L20。

实验与结果

1. 实验设置

基础模型选择与图像到视频生成任务相比，文本到图像生成任务得到了更好的探索。因此，我们使用一组预训练的文本到图像（T2I）模型 [19, 23, 37, 1]，或者直接使用用户提供的图像。对于图像到视频（I2V）任务，我们使用预训练的文本到视频（T2V）混元视频 13B 模型 [18] 作为基础模型，并在此基础上进行修改。

2. 实现细节

我们使用 128 个 GPU，批量大小为 64。我们对模型进行了为期两周的训练。初始学习率设置为，并逐步降低到。我们还应用了指数移动平均（EMA）[22] 来实现稳定训练。该模型在一个包含 160 万个数据样本的子集上进行训练，这些样本来自 WebVid - 10M [3]、Panda - 70M [5]、Koala - 36M [35] 和互联网数据。对于步数蒸馏，我们探索了将分类自由引导（CFG）蒸馏集成到动态多尺度扩散（DMD2）的训练过程中，旨在在单阶段训练中生成一个少步数生成器。DMD2 以 16 的批量大小和固定的学习率进行训练。在训练过程中，少步数生成器在假模型每更新五次后进行更新。此外，在 DMD2 训练中，低秩分支的权重因子分别为真实模型设置为 0.25，假模型设置为 1。

3. 基准测试

我们利用定制的 VBench、通用 VBench 以及 FID、FVD 和 LPIPS 等传统指标来评估模型的性能。然而，由于资源限制，我们没有像 MovieGen [24] 等近期的先进模型那样，使用大量推理步骤的模型。相反，我们将重点放在模型的效率方面。在本报告中，我们使用 4、8、16、28 和 56 步对基础模型进行性能测量。对于少步生成器，我们使用 4 步和 8 步评估其性能。

我们的定制 VBench。我们使用 I2V VBench 进行人像视频合成评估 [16]。我们首先收集了 58 张高质量的宽屏图像，并利用 InternVL - 26B 为这些图像生成相应的提示。对于每个样本，我们随后合成了五段视频，总共得到 290 段视频，以减少潜在的测试误差。然后使用 VBench 对合成的视频进行评估。主要评估指标包括图像到视频主体（i2v subject）、主体一致性、运动平滑度、动态程度、美学质量、成像质量和时间闪烁。

通用 VBench。我们还在通用 VBench [15] 数据集上评估了 Magic 1 - For - 1 的性能，该数据集由官方提示与参考图像配对组成。与 I2V - VBench 评估类似，此基准测试评估图像到视频主体（i2v subject）、主体一致性、运动平滑度、动态程度、美学质量、成像质量和时间闪烁。值得注意的是，该基准测试包含 1118 个提示，每个提示都与一张参考图像配对，以提供多样化和全面的评估。

FID、FVD 和 LPIPS。在人像视频合成中，评估视频质量的关键指标包括 FID [11]、FVD [33] 和 LPIPS [41]。按照 EMO [32] 和 Hallo [8] 中概述的方法，我们从 VFHQ [38] 数据集中随机抽取 100 个视频片段。每个选定的片段包含 129 帧，分辨率和帧率分别标准化为 540 × 960 和 24 FPS。为了评估性能，我们通过将合成视频与相应的原始视频进行比较来计算 FID 和 FVD 分数。

4. 实验结果

我们的实验包含三个主要部分。首先，消融研究表明，四步动态模型蒸馏（DMD2）训练可实现最佳性能，并且与文本到视频（T2V）步骤蒸馏相比，图像到视频（TI2V）步骤蒸馏的训练难度明显更低。接下来，我们评估了少步生成器和基础模型在人像视频合成和通用视频合成任务上的性能差异。最后，我们将 Magic 1 - For - 1 与其他最先进的 TI2V 模型进行比较，以证明我们提出的算法的优越性。

收敛速度比较。由于 Magic 1 - For - 1 基础模型具有强大的生成能力，对这个大规模模型进行微调，以实现用最少的采样步骤生成高质量合成视频，所需的计算开销相对较低。如图 5 所示，在 TI2V 基础模型上应用 DMD2 进行步骤蒸馏，在 100 次迭代内即可接近收敛。具体而言，最优的四步生成器在 200 次迭代时获得，而最优的八步生成器仅在 100 次迭代时即可实现。值得注意的是，虽然 DMD2 在 TI2V 少步合成任务上表现出快速收敛，但在 T2V 少步合成任务上，即使经过 1000 次迭代，其性能仍远未收敛，并且与 TI2V 任务相比表现明显较差。

图 5：训练期间的模型性能进展。有趣的是，与文本图像到视频魔法 1 对 1（TI2V Magic 1 - For - 1）相比，文本到视频魔法 1 对 1（T2V Magic 1 - For - 1）在步数蒸馏中的收敛速度明显较慢。

少步生成器之间的性能比较。我们在自定义视频基准测试（VBench）和通用视频基准测试上评估了少步生成器和基础模型的性能。我们的自定义 VBench 是专门为肖像视频合成任务设计的，而通用 VBench 则针对通用视频生成。比较结果分别列于表 1 和图 1。从表 1 可以看出，基础模型的性能随着采样步骤数的增加而逐渐提高。值得注意的是，50 步基础模型在运动动态、视觉质量和语义忠实度等指标上的表现不如 4 步生成器，这表明我们改进的 DMD2 有效地减轻了基础模型中固有的某些有害偏差。此外，Magic 1 - For - 1（DMD2）在通用 VBench 基准测试中表现出色。如图 1 所示，Magic 1 - For - 1（DMD2）在运动动态和视觉保真度等多个评估维度上优于包括 SVD - XT - 1.0、VideoCrafter - I2V、SEINE - 512x320、I2Vgen - XL 和 CogVideoX - I2V 在内的竞争方法。这一成功凸显了 Magic 1 - For - 1 在 TI2V 生成任务中的优越性。

图 6：Magic 1 - For - 1 与近期最先进的开源图像到视频生成模型的定性比较。

与最先进模型的性能比较。我们还将我们模型的视觉质量与近期的开源图像到视频生成模型进行了比较。如图 6 所示，我们的模型在视频质量上表现出明显的优势，特别是在视觉清晰度和运动平滑度方面。

总结

在本报告中，我们提出了一种全面的方法来提高视频生成模型训练和推理的效率。我们将文本到视频的生成任务分解为两个连续的子任务：图像生成和图像到视频的生成。我们的研究结果表明，与完整的文本到视频生成流程相比，常用的扩散步骤蒸馏算法在应用于图像到视频生成时能显著加快收敛速度。此外，通过结合量化技术，我们开发了一种高效的视频生成模型，同时保持了可接受的生成质量。通过本报告，我们旨在强调，利用生成先验信息可以大幅加速扩散过程，使视频生成更快、更实用。

也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

AI I024

2025年3月6日星期四

北大提出高效视频生成框架Magic 1-For-1！一分钟即可生成1min时长的高质量视频！

导读

简介