AI I024: 速度狂飙12倍！清华FlashVSR：首次实现超高清视频实时超分辨率，超越所有扩散VSR模型

AI生成未来知识星球免费开放！

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Junhao Zhuang等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2510.12747
项目链接：https://zhuang2002.github.io/FlashVSR
代码链接：https://github.com/OpenImagingLab/FlashVSR
模型链接：https://huggingface.co/JunhaoZhuang/FlashVSR

高分辨率视频修复的效率和性能比较与最先进的 VSR 模型（如 DOVE 和 SeedVR2-3B）相比，FlashVSR 能还原更清晰的纹理和更细致的结构。它使用单个 A100 GPU 在 768×1408 视频上实现了接近实时的 17 FPS 性能，与最快的一步扩散 VSR 模型相比，速度提高了 11.8 倍。(放大以获得最佳视图）

亮点直击
首个实时流式扩散VSR框架 —— 通过蒸馏与稀疏注意力实现端到端实时处理。
高效可扩展设计 —— 稀疏局部注意力解决分辨率泛化与计算冗余两难。
轻量条件解码器 + 大规模数据集 —— 同时兼顾速度、质量与训练规模，奠定未来高分辨率视频超分的基础。

总结速览

解决的问题

对 扩散模型在真实场景视频超分辨率（VSR）中的三大瓶颈问题 提出改进：

高延迟问题：现有方法需对视频分块（chunk）处理，导致重叠帧冗余计算与高"lookahead"延迟。
高计算复杂度问题：视频生成模型通常采用全局三维注意力（dense 3D attention），计算量随分辨率平方增长，难以实时运行。
训练-测试分辨率不匹配问题：模型多在中等分辨率上训练，在高分辨率（如1440p）上泛化性能下降。

提出的方案

FlashVSR提出了首个基于扩散模型的实时流式视频超分辨率框架，通过三项关键创新实现高效与可扩展性：

三阶段蒸馏训练Pipeline（Train-friendly Distillation Pipeline）

(i) 先训练一个全注意力联合图像-视频VSR模型作为教师模型；
(ii) 再微调为块稀疏因果注意力模型；
(iii) 最后蒸馏成单步（one-step）VSR模型，实现高效推理与流式超分。

局部约束稀疏注意力（Locality-constrained Sparse Attention）

先池化计算粗注意力图，仅对得分最高的top-k区域进行全注意力；
同时引入空间局部窗口约束，保证训练与推理阶段的位置编码范围一致，从而改善高分辨率泛化。

轻量条件解码器（Tiny Conditional Decoder）

以低分辨率帧作为条件输入，辅助高分辨率重建；
在保持视觉质量的同时，解码速度提升约 7倍，显著降低运行瓶颈。

应用的技术

扩散模型 (Diffusion-based VSR) ：利用一阶扩散过程实现高质量时空恢复；
块稀疏注意力 (Block-sparse Attention) ：减少不必要的计算区域；
局部窗口约束 (Local Windows) ：解决训练-推理分辨率不匹配问题；
三阶段知识蒸馏 (Three-stage Distillation) ：高效训练流式单步模型；
条件VAE解码器 (Conditional Decoder) ：降低解码负担，加速生成；
大规模数据集 VSR-120K ：包含 12 万视频与 18 万图像，为联合训练提供支撑。

达到的效果

实时性能：在单张 A100 GPU 上实现 17 FPS（768×1408）；
低延迟：仅需 8 帧前瞻（lookahead latency），远优于以往 80 帧的分块方法；
高效率：较最强单步扩散VSR模型（SeedVR2-3B）加速约12倍；
高泛化：可稳定扩展至 1440p 超高清分辨率，保持细节质量；
SOTA 性能：在定量与主观指标上均超越现有扩散VSR模型。

方法

本文提出了 FlashVSR，这是一种高效的基于扩散模型的单步流式视频超分辨率（VSR）框架，可在单张 A100 GPU 上以接近实时的速度进行推理（17 FPS，分辨率为 768 × 1408）。此外，为了训练高质量的 VSR 模型，我们还构建了一个大规模高质量数据集 VSR-120K。

如下图 2 所示，FlashVSR 基于三阶段蒸馏框架构建，并结合局部约束稀疏注意力以缓解训练与推理分辨率之间的差距，同时引入轻量条件解码器以降低 3D VAE 解码器的计算开销。以下将详细介绍各部分内容。

VSR-120K 数据集

为克服现有 VSR 数据集规模和质量的限制，本文构建了 VSR-120K，一个用于图像–视频联合超分辨训练的大规模数据集。从 Videvo、Pexels 和 Pixabay 等开放资源库中收集原始数据，包括 60 万段视频片段和 22 万张高分辨率图像。

在质量控制方面，采用 LAION-Aesthetic 预测器和 MUSIQ 进行视觉质量评估，并使用 RAFT 进行运动过滤。最终数据集包含 12 万段视频（平均长度超过 350 帧）和 18 万张高质量图像。

三阶段蒸馏管线

为构建一个高质量且高效的 VSR 模型，本文设计了一个三阶段蒸馏管线：(1) 图像–视频联合训练以建立强教师模型，(2) 因果稀疏注意力适配以实现流式高效，(3) 分布匹配蒸馏以获得单步学生模型。

阶段 1：视频–图像联合超分训练我们将一个预训练的视频扩散模型（WAN2.1 1.3B）适配为超分辨任务，通过在视频与图像上联合训练来实现，其中图像被视为单帧视频（），从而实现统一的三维注意力形式。如图 2 的阶段 1 所示，应用一个块对角段掩码以限制注意力在同一段内进行。

其中，表示token （图像或视频片段）的片段标识，表示归一化的注意力权重。此时省略了块稀疏约束，以便教师模型保留完整的时空先验。使用固定的文本提示进行条件控制，交叉注意力的键和值在样本间复用。我们进一步引入轻量级低分辨率（LR）Proj-In 层，将 LR 输入投影到特征空间，而不是使用 VAE 编码器。训练采用标准的流匹配损失（flow matching loss）。

阶段 2：块稀疏因果注意力适配将阶段 1 的全注意力 DiT 调整为稀疏因果 DiT（Sparse-Causal DiT），通过引入因果掩码和块稀疏注意力实现，如图 2 所示。因果掩码限制每个潜变量仅关注当前及过去位置。参考相关研究，将查询（Q）和键（K）划分为不重叠的块，块大小为，并重塑为，其中。在每个块内，通过平均池化得到紧凑的块级特征，用于计算粗粒度的块间注意力图。选择最相关的 top-k 个块对，仅在这些区域上对原始应用完整的注意力，从而在无性能损失的情况下将注意力计算成本降低至稠密基线的 10–20%。 LR Proj-In 层被转换为适用于流式推理的因果变体，训练继续在视频数据上使用流匹配损失。

阶段 3：分布匹配单步蒸馏近期关于单步流式视频扩散的研究主要集中在视频生成领域，通常需要干净的过去帧作为输入以保证运动合理性。教师强制（以真实值为条件）会在推理时造成误差累积，而学生强制（以预测潜变量为条件）虽能缓解此问题，但需要顺序展开，从而降低效率。

在阶段 3中，将阶段 2 的稀疏因果 DiT 精炼为单步模型，并提出一种用于流式 VSR 的并行训练范式。模型以 LR 帧和高斯噪声作为输入，所有潜变量在统一时间步下训练，并使用块稀疏因果注意力掩码。阶段 1 的全注意力 DiT 作为教师模型，而其副本学习伪潜变量的分布，遵循 DMD 训练流程。此处，表示预测的潜变量，表示重建的高分辨率帧。总体目标函数结合了分布匹配蒸馏损失、流匹配损失以及像素空间重建损失。

其中，。由于内存限制，每次迭代随机选择两个潜变量进行解码，之前的潜变量从梯度中分离。

由于训练和推理仅依赖于低分辨率（LR）帧和噪声，因此训练与推理之间的差距被消除。作为单步模型，的后期层已经通过 KV-cache 传播了干净的潜变量信息以保持时间连续性。其核心见解在于，与视频生成不同，VSR 强烈依赖于 LR 帧，因此不需要干净的历史潜变量来保持运动合理性。模型专注于内容重建，而时间一致性在后续层中通过 KV-cache 进行优化。该设计在保持高保真度的同时，实现了高效的并行训练，并消除了训练与推理的差距。

局部约束稀疏注意力

对于超分辨率任务，在中等分辨率上训练的模型可能无法很好地泛化到超高分辨率（如 1440p），导致如下图 3 所示的重复模式与模糊现象。分析表明，这种问题源于位置编码的周期性：当推理时的位置范围远超训练范围时，某些维度会重复其模式，从而削弱自注意力的表现，如图 3 底部所示。

本文引入了局部约束注意力机制，在推理时限制每个查询仅关注有限的空间邻域，从而使注意力范围与训练时保持一致。借助相对位置编码（RoPE）的形式化，这一简单约束消除了位置范围上的训练–推理差距。该方法弥合了分辨率差距，并在高分辨率输入上保持一致性能，如图 3 中部所示。

轻量条件解码器

在获得单步流式模型后，发现 VAE 解码器在推理过程中占据主要时间（约 70% 的运行时间），成为瓶颈。

为此设计了一个轻量条件解码器（Tiny Conditional Decoder, TC Decoder），其不仅仅是缩小原始 VAE 解码器的规模，而是同时以 LR 帧和潜变量为条件进行重建。这样既降低了解码复杂度，又在更少参数下保留了细节。设表示重建的高分辨率帧，表示真实值，表示 Wan 解码器的输出。训练结合像素级监督与来自原 Wan 解码器的蒸馏：

其中λ = 2。TC 解码器在保持相当质量的同时，实现了比原始 VAE 解码器快近 7 倍的解码速度，并且在相同参数预算下始终优于无条件的小型解码器。

实验

实现细节

FlashVSR 构建于 Wan 2.1–1.3B之上，并通过 LoRA 进行微调。所有阶段均在 VSR-120K 数据集上训练，使用通过 RealBasicVSR 降质管线（Chan 等，2022b）合成的配对 LR–HR 视频和图像。训练在 32 块 A100-80G GPU 上进行，而评估使用单个 A100。所有阶段的批量大小均为 32，阶段 1–3 分别耗时约 2、1 和 2 天。阶段 1 使用 89 帧片段（768 × 1280）及配对图像；阶段 2 继续仅使用视频训练；阶段 3 采用相同设置。使用 AdamW 优化器（Loshchilov & Hutter，2017），学习率为，权重衰减为 0.01。TC 解码器单独在 61 帧片段（384 × 384）上训练约 2 天。

数据集、指标与基线

在三个合成数据集（YouHQ40、REDS、SPMCS）、一个真实世界数据集（VideoLQ）以及一个 AI 生成数据集（AIGC30）上进行评估。合成 LR 帧使用与训练相同的降质管线生成。使用 PSNR、SSIM、LPIPS、MUSIQ、CLIPIQA 和 DOVER对具有真实值的数据集（YouHQ40、REDS、SPMCS）进行评估，而对于没有真实值的数据集（VideoLQ、AIGC30），仅使用无参考指标（MUSIQ、CLIPIQA、DOVER）。将 FlashVSR 与 RealViFormer（非扩散 Transformer）、STAR和 Upscale-A-Video（多步扩散），以及 DOVE和 SeedVR2-3B（单步扩散）进行比较。

与现有方法的比较

定量比较。 将 FlashVSR 与最先进的真实世界视频超分辨方法进行比较。对于基于多步扩散的模型，我们采用其默认配置，STAR 使用 15 个采样步，Upscale-A-Video 使用 30 个采样步。下表1 报告了定量结果。FlashVSR 在所有数据集上持续优于竞争方法，特别是在 MUSIQ、CLIPIQA 和 DOVER 等感知指标上表现突出。此外，与使用 Wan 原始 VAE 解码器相比，所提出的 TC 解码器在保持高效的同时进一步提升了重建指标。我们还注意到 RealViFormer 在 REDS 上具有固有优势，因为该数据集包含在其训练集中。评估结果突出了 FlashVSR 在实现高质量视频超分辨方面的有效性。

定性比较。 为了在真实场景中提供更直观的视觉质量对比，我们在 VideoLQ 和 AIGC30 上展示了定性结果，如下图 5 所示。为清晰起见，我们还放大了选定的局部区域，以更好地展示各方法的 LR 帧和输出之间的差异。FlashVSR 相比基线生成了更清晰、更具细节的重建结果，其纹理和结构更加自然。例如，在图 5 的最后一行中，FlashVSR 恢复了更清晰的手部纹理和书架细节，结果在视觉上更为逼真。这些定性观察与感知指标上的定量提升一致。

效率分析。 下表2 报告了在 768 × 1408 分辨率下 101 帧视频的效率比较。通过流式推理、块稀疏注意力、单步蒸馏和轻量级条件解码器，FlashVSR 相较于所有基线模型实现了显著的效率提升。它比 Upscale-A-Video（30 步）快 136 倍，比 STAR（15 步）快 114 倍，甚至比最快的单步模型 SeedVR2-3B 还快 11.8 倍，同时使用的峰值显存更少（11.1 GB 对比 52.9 GB）。STAR 使用分块推理（块大小 32，重叠 0.5），大多数方法一次性处理整个序列。相比之下，FlashVSR 采用流式推理，将前瞻延迟降低至仅 8 帧（STAR 为 32 帧，其他方法为 101 帧）。这些结果证明了 FlashVSR 在实际部署中的可行性。

消融研究

稀疏注意力。 在 REDS 上评估稀疏注意力的影响。如下表 3 所示，具有 13.6% 稀疏度的 FlashVSR 在重建和感知质量方面与全注意力基线（KV-cache 大小为 85 帧）几乎相同。在下，其每 8 帧的推理时间从 1.105s 减少到 0.355s（加速约 3.1 倍），从而在不损失视觉质量的情况下显著提升了效率。这表明稀疏注意力能够有效剪除冗余交互，减轻计算开销，同时保留实现高质量视频超分辨所需的关键时空依赖。

微型条件解码器。 在 200 个随机选择的未见视频上评估所提出的 TC 解码器，其中所有输入均通过 Wan VAE 编码器压缩，并分别由三个解码器重建：原始 Wan 解码器、TC 解码器，以及一个无条件变体。如下表 4 和图 5 所示，TC 解码器在视觉质量上与 Wan 解码器几乎相同，其定量指标也非常接近。对于一段分辨率的 101 帧视频，其解码时间为 1.60s，而 Wan 解码器为 11.13s，实现了约 7 倍加速。此外，在 PSNR、SSIM 和 LPIPS 上，TC 解码器始终优于无条件变体，表明引入 LR 帧条件的有效性。TC 解码器在保持最小保真度损失的同时显著提升了解码速度，使其非常适合于实际的视频超分辨部署。

局部约束注意力。 前面图 3 展示了所提出的局部约束注意力掩码如何通过对齐训练与推理阶段的位置编码范围，缓解超高分辨率下的重复纹理和模糊问题。为了定量验证其有效性，在 15 个高分辨率视频（，平均 305 帧）上进行评估。我们根据边界处理方式（见图 3）考虑两种变体：Boundary-Preserved 和 Boundary-Truncated，两者的感受野均限制为，并与全局注意力匹配稀疏度。结果如下表 5 所示。与全局注意力相比，两种变体在所有指标上均有一致提升。值得注意的是，Boundary-Truncated 在感知质量上略有优势，而 Boundary-Preserved 在保持较好保真的同时表现出竞争力。这些结果证实了局部约束注意力能够有效提升超高分辨率视频的超分辨性能。

结论

FlashVSR，一种高效的基于扩散的一步流式视频超分辨框架。通过结合流式蒸馏、局部约束稀疏注意力和微型条件解码器，FlashVSR 以接近实时的效率和强大的超高分辨率扩展能力实现了最先进的质量。我们的结果证明了 FlashVSR 的有效性和实用性，凸显了其在真实世界视频应用中的潜力。

参考文献

[1] FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码免费加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2025年10月23日星期四

速度狂飙12倍！清华FlashVSR：首次实现超高清视频实时超分辨率，超越所有扩散VSR模型