👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Jintao Zhang等
文章链接:https://arxiv.org/pdf/2512.16093
代码链接: https://github.com/thu-ml/TurboDiffusion
亮点直击
提出了一种端到端的视频生成加速框架,在保持视频质量的同时,将扩散模型的生成速度提升了 。 单张 RTX 5090 GPU 上,该框架能将原本耗时数分钟甚至数小时的视频生成过程缩短至几秒钟(例如从 184 秒缩短至 1.9 秒),实现了实时级别的视频生成体验。
解决的问题
现有的高质量视频扩散模型(如 Wan2.1/2.2)虽然生成效果出色,但推断延迟极高(Latency),通常需要巨大的计算资源和较长的时间,限制了其实际应用和部署。
提出的方案
本工作提出了 TurboDiffusion 框架,这是一种算法与系统协同优化的解决方案。它通过结合低比特注意力机制、稀疏注意力、步数蒸馏和模型量化,在大幅减少计算量的同时,最大程度地保留了模型的生成能力。
应用的技术
注意力加速 (Attention Acceleration) :采用低比特的 SageAttention (SageAttention2++) 和可训练的稀疏线性注意力 (Sparse-Linear Attention, SLA) 来加速注意力计算。 步数蒸馏 (Step Distillation) :采用 rCM (Regularized Consistency Model) 方法进行高效的步数蒸馏,将采样步数减少至 3-4 步。 W8A8 量化 (W8A8 Quantization) :将模型参数和激活值量化为 8-bit (INT8),以加速线性层(Linear Layers)计算并压缩模型体积。 工程优化:使用 Triton 和 CUDA 重写了 LayerNorm 和 RMSNorm 等操作。
达到的效果
在 Wan2.2-I2V 和 Wan2.1-T2V 系列模型上的实验表明:
在单张 RTX 5090 上实现了 的端到端加速。 Wan2.1-T2V-1.3B-480P 生成 5 秒视频仅需 1.9 秒(原为 184 秒)。 Wan2.1-T2V-14B-720P 生成 5 秒视频仅需 24 秒(原为 4767 秒)。 视频质量在视觉上与原始模型相当,且优于现有的加速方案(如 FastVideo)。
方法
首先介绍TurboDiffusion 中使用的主要技术。随后分别介绍 TurboDiffusion 的训练过程和推理时的加速细节。
主要技术
TurboDiffusion 主要利用四种技术来加速扩散模型。首先,TurboDiffusion 使用 SageAttention进行低比特量化注意力加速;具体而言,使用了 SageAttention2++变体。其次,TurboDiffusion 使用稀疏线性注意力 (Sparse-Linear Attention, SLA)进行稀疏注意力加速。由于稀疏计算与低比特 Tensor Core 加速是正交的,SLA 可以构建在 SageAttention 之上以提供累积加速比。第三,TurboDiffusion 使用 rCM来减少采样步数,这是目前最先进的扩散蒸馏方法之一。通过模型权重合并,rCM 自然继承了注意力层面的加速效果。最后,TurboDiffusion 使用 W8A8 量化进行线性层 (Linear layer) 加速。具体来说,数据类型为 INT8,量化粒度为块状 (block-wise),块大小为 。
训练
给定一个预训练的视频扩散模型,TurboDiffusion 执行以下训练过程。首先,本工作将全注意力 (full attention) 替换为稀疏线性注意力 (SLA),并微调预训练模型以适应稀疏性。并行地,本工作使用 rCM将预训练模型蒸馏为一个采样步数更少的学生模型。其次,本工作将 SLA 微调和 rCM 训练的参数更新合并到一个模型中。所有训练均可使用真实数据或合成数据。 更多细节请参阅本工作的 GitHub 代码。
推理
给定如上一节所述经过稀疏线性注意力 (SLA)和 rCM训练的视频生成模型,本工作按如下方式部署推理时加速。
注意力加速:本工作将 SLA 替换为 SageSLA,这是建立在 SageAttention 之上的 SLA 的 CUDA 实现。 步数蒸馏:本工作将采样步数从 100 步减少到一个小得多的数值,例如 4 步或 3 步。 线性层量化:首先,本工作将线性层参数量化为 INT8,块状粒度为 。其次,在推理过程中,本工作还将线性层中的激活值 (activations) 量化为 INT8(使用相同的块状粒度),并使用 INT8 Tensor Cores 执行线性层计算。通过这种方式,本工作将模型大小压缩了大约一半,并实现了更快的线性层计算。 其他优化:本工作使用 Triton 或 CUDA 重新实现了其他几个操作,例如 LayerNorm 和 RMSNorm,以获得更高的效率。
更多细节请参阅本工作的 GitHub 代码。
评估
本节评估 TurboDiffusion 的效率和视频质量。
设置
模型与基线:本工作在 Wan2.2-I2V-A14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P 和 Wan2.1-T2V-14B-480P 视频扩散模型上评估 TurboDiffusion。本工作使用 Wan的官方实现(记为 Original)和 FastVideo作为主要基线。超参数:本工作将 Top-K 比率设置为 0.1,对应 90% 的注意力稀疏度,并使用 3 个采样步数。在实践中,本工作建议使用范围在 内的 Top-K 值,并将步数设置为 4,以稳定地获得最佳视频质量。对于 FastVideo,本工作使用官方实现中的默认参数(3 个采样步数和 0.8 的注意力稀疏度)。GPU:本工作的主要推理实验是在单张 RTX 5090 GPU 上进行的。此外,尽管加速比没有在 RTX 5090 上那么大,但本工作在其他 GPU(如 RTX 4090 和 H100)上也观察到了显著的加速效果。
效率与质量
本工作比较了 Original、FastVideo 和 TurboDiffusion 的视频生成质量和效率。 对于效率评估,本工作报告端到端的扩散生成延迟,不包括文本编码和 VAE 解码阶段。下图分别展示了在 Wan2.2-I2V-A14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P 和 Wan2.1-T2V-14B-480P 上的视觉对比。由于 FastVideo 没有提供加速版的 Wan2.2-A14B-I2V-720P,本工作仅在 Wan2.2-A14B-I2V-720P 上比较 TurboDiffusion 和 Original。 从下图中可以看出,TurboDiffusion 不仅实现了最高的效率,还保持了视频质量,证明了其明显优于 FastVideo。
结论与未来工作
本工作提出了 TurboDiffusion,这是一个视频生成加速框架,实现了 的端到端扩散加速,且质量下降可忽略不计。TurboDiffusion 结合了低比特注意力 (SageAttention)、稀疏线性注意力 (SLA)、通过 rCM 进行的步数蒸馏以及 W8A8 量化,并辅以若干额外的工程优化。在 Wan2.2-I2V-A14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P 和 Wan2.1-T2V-14B-480P 上的实验表明,TurboDiffusion 将单个视频的生成时间在单张 RTX 5090 GPU 上减少到了 分钟,使得高质量视频生成变得更加高效和实用。
对于未来的工作,本工作计划扩展该框架以支持更多的视频生成范式,例如自回归视频扩散 (autoregressive video diffusion)。
参考文献
[1] TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论