2025年10月21日星期二

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!

AI生成未来知识星球免费开放!

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Junsong Chen

解读:AI生成未来
图片

论文链接:https://arxiv.org/pdf/2509.24695 
项目链接:https://nvlabs.github.io/Sana/Video/ 

亮点直击

  • SANA-Video,一种小型扩散模型,旨在实现高效训练和快速推理,同时不影响输出质量。
  • 通过大幅降低计算门槛,SANA-Video 使高质量视频生成对更广泛的用户和系统变得更加可访问和实用。改进主要体现在三个关键组件上: 线性 DiT 、带 KV 缓存的块线性注意力 、高效数据过滤和训练。
  • 模型在生成 720p 视频时的延迟比最先进的 Wan2.1 快了 13 倍以上(见图 1(b)),同时在多个基准测试中表现出色。

本文将 SANA-Video 量化并以 NVFP4 精度部署在 RTX 5090 GPU 上,生成一个 5 秒的 720p 视频仅需 29 秒。希望本文的模型能够被日常用户高效使用,提供一个快速视频生成的强大基础模型。

图片

总结速览

效果一览

1.具身智能

2.游戏

3.自动驾驶

解决的问题

SANA-Video 解决了高分辨率、长时间视频生成中的高计算成本和低效率问题,尤其是在消费级硬件上的部署困难。

提出的方案

引入 SANA-Video,这是一种小型扩散模型,能够高效生成高质量视频。该模型通过优化计算资源使用和改进训练及推理效率,使得视频生成更加经济实用。

应用的技术

  1. 线性 DiT:使用线性注意力代替传统自注意力,降低计算复杂度,从  降至 ,并增强视频生成速度。
  2. 带 KV 缓存的块线性注意力:设计块状自回归方法,使用常量内存状态来支持长视频生成,减少传统 KV 缓存需求。
  3. 高效数据过滤和训练策略:通过预训练模型、数据过滤和多阶段训练策略降低训练成本。

达到的效果

SANA-Video 在生成 720p 视频时的延迟比最先进的模型快 13 倍以上,训练成本仅为 MovieGen 的 1%。在 RTX 5090 GPU 上以 NVFP4 精度部署后,生成 5 秒 720p 视频的速度从 71 秒加速到 29 秒,实现了低成本、高质量的视频生成。

SANA-Video

将视频生成扩展到更高的分辨率和更长的序列会显著增加 token 的数量,使得自注意力的  复杂性在计算、速度和内存方面成为主要瓶颈。这凸显了在视频生成中需要高效的线性注意力。在 SANA Linear DiT 的基础上,本文通过集成两个关键组件:旋转位置嵌入(RoPE)和混合 FFN 中的时间一维卷积,推出了用于视频生成的 Linear Video DiT(下图 2(a))。这些设计保留了 SANA 的宏观架构以及额外的时间建模(下图 2(b)),使本文能够利用预训练的图像模型并通过持续预训练高效地将其适配为一个强大的视频模型。除了短视频生成,本文还引入了块线性注意力模块以实现高效的长视频生成。通过重新构造线性注意力,块线性注意力模块和因果混合 FFN 保持了常量内存的 KV 缓存和长视频的线性计算成本。基于此 KV 缓存,本文设计了两阶段后训练范式,以解锁无限长度生成能力,从而形成一个高质量且高效的长视频生成模型。

图片

训练策略

阶段1:文本到图像(T2I)上的 VAE 适配。 由于图像和视频 VAE 之间的不匹配,从头开始训练视频 DiT 模型资源密集。本文首先通过高效地将现有的 T2I 模型适配到新的视频 VAE 来解决这个问题。具体来说,本文利用不同的视频 VAE 生成不同分辨率的视频。对于 480P 视频,高压缩比的 VAE 限制了整体性能,因此本文采用 Wan-VAE。对于 720P 高分辨率视频,本文引入了本文的视频 VAE,DCAE-V,它提供了更高的压缩比以实现更高效的生成。这两种 VAE 的适配都非常高效,在 5-10k 的训练步骤内收敛,进一步证明了本文的 Linear DiT 的强泛化能力。

阶段2:从 T2I 模型继续预训练。 从预训练的 T2I 模型初始化视频 Linear DiT 是利用已经学习的视觉和文本语义知识的一种高效且有效的方法。因此,本文使用从第一阶段适配的模型初始化本文的 SANA-Video,并引入额外的设计以建模长时间上下文和运动信息。额外的时间设计是为线性注意力量身定制的,改善了注意力操作的局部性。新添加的层通过跳跃连接进行零初始化,这在早期训练过程中最小化了它们对预训练权重的影响。在这种身份初始化之后,SANA-Video 以粗到细的方式进行训练。它首先在低分辨率、短视频(例如 192P 2.5 秒)上进行训练,然后在不同的数据过滤标准下(附录 D)转向高分辨率、长视频(例如 480P 5 秒)。这种粗到细的方法有效地鼓励 SANA-Video 快速学习动态信息,并通过使用更少但质量更高的数据来细化细节。

阶段3:自回归块训练。 持续的预训练使 SANA-Video 成为一个高效的小型扩散模型,主要用于高分辨率的 5 秒视频生成。为了能够生成更长的视频,本文在下文中分析了线性注意力的属性,并提出了用于自回归生成的常量内存块 KV 缓存。在此设计的基础上,本文进行自回归块训练,分为两个步骤:首先训练自回归模块,然后通过改进的自强制块训练解决曝光偏差问题。此过程产生了一个高质量、高效的长视频生成模型。

高效的线性 DiT 预训练

SANA-Video 采用 SANA作为基础架构,并创新性地调整了线性扩散变压器块,以应对 T2V 任务的独特挑战,如上图 2 所示。提出了以下几个专用设计:

视频 DiT 中的线性注意力。 本文的工作通过将旋转位置嵌入(RoPE)集成到其高效的 ReLU () 线性注意力块中,扩展了 SANA架构。这种集成对于增强模型处理高质量视频生成中的顺序和空间关系的能力至关重要。本文设计的核心在于在 ReLU 激活后应用 RoPE,具体为 RoPE(ReLU()),如上图 2 所示。这个顺序很关键,因为它防止了 ReLU 核心过滤掉 RoPE 编码的位置信息。如下图 3 所示,这一设计使得注意力图在局部区域有明确的聚焦,这对于捕捉细粒度的视频细节至关重要。

图片

然而,直接将 RoPE 应用于查询和键(如在普通注意力中)可能会因 softmax 和 ReLU 相似性函数之间的差异而使线性注意力机制在数值上不稳定。RoPE 变换可能改变 ReLU 输出的非负性质,可能导致标准线性注意力公式(方程 2)中的分母变为零。为了解决这个问题,本文修改了计算:虽然分子中包括了查询和键上的 RoPE,但本文在分母中去掉了键或查询之一的 RoPE。这确保了分母保持正值,保证了训练的稳定性(上图 3 (b)),同时仍然受益于位置编码。

图片

其中, 和  分别表示第  个 token 的输出、查询、键和值。

具有时空混合的 Mix-FFN。如上图 3 所示,本文将 SANA-Video 中的线性注意力图与 Wan2.1 中的 softmax 注意力图进行了比较。本文观察到,相较于 softmax 注意力,线性注意力更加密集且对局部细节的关注较少。SANA 通过在 Mix-FFN 中加入卷积来改善图像生成中的局部性问题。在 Mix-FFN 的基础上,本文通过时间一维卷积增强了它。时间卷积与快捷连接一起被附加到块的末尾(上图 2(b)),实现了无缝的时间特征聚合,同时保留了初始化。该模块有助于捕捉沿时间轴的局部关系,从而在生成的视频中实现更好的运动连续性和一致性。如本文的消融研究所示(下图 6(a)),这一添加显著降低了训练损失并改善了运动性能。

图片

块线性注意力

本节概述了实现高效长视频生成的关键组件。受因果线性注意力的固有属性启发,本文在块线性注意力模块中探索了常量内存的全局 KV 缓存,该模块支持长上下文注意力,同时占用较小且固定的 GPU 内存。基于该模块,本文引入了一个两阶段的自回归模型继续训练范式:使用单调增加的 SNR 采样器进行自回归块训练,以及用于长上下文注意力的改进自强制方法。

带有 KV 缓存的块线性注意力

因果普通注意力的限制。 根据训练目标(方程 1),需要块状因果注意力来实现自回归生成。最近的工作 [5, 6, 17] 使用块内全注意力与对前块的因果注意力结合。为了降低计算成本,他们利用 KV 缓存,这种方法有效但存在内存开销。对于每个新的 token ,有  个缓存的条件 token,它需要  的内存来存储缓存,并且需要  的 FLOPs 来进行注意力计算。然而,由于计算和内存成本呈线性增长,这些方法 [5, 6, 17] 在长视频生成过程中通常将注意力窗口限制在局部范围内。虽然这保持了稳定的成本,但代价是失去了全局上下文信息。

块线性注意力中的 KV 缓存。 与因果普通注意力中急剧增加的计算和内存成本相比,线性注意力具有显著的效率优势,自然支持具有全局注意力的长视频生成,同时保持常量内存。考虑因果注意力设置,线性注意力(方程 2)对于第  个 token 的输出可以重新表述为:

图片其中, 表示第  个 token 的注意力状态。为了简化,本文在此省略了 RoPE。显然,只要存储状态的累积和  和键的累积和 ,就只需要计算第  个 token 的注意力状态 。因此,内存成本仅为  和 ,总共占用 ,计算成本也仅为 。在下表 1 和下图 4(a) 中,本文比较了因果全注意力、因果局部注意力和本文的因果线性注意力之间的内存和计算成本。由于 ,因果线性注意力实现了最佳效率,并且在长视频生成中仍能保持全局内存。

图片
图片

块因果混合 FFN。 除了线性注意力之外,本文设计的时空混合 FFN 结合卷积层以提高局部性,并且在长视频生成中也必须是因果的。在推理过程中,具有核大小为 3 的因果时间卷积层需要访问上一个块的最后一帧。为此,上一个块的最后一帧  也被缓存(上图 4(b))。因此,本文的因果线性 DiT 模块保持一个固定的内存缓存,包含来自所有前帧的注意力状态和键的累积和,以及上一个块的最后一帧。

自回归块训练

自回归 SANA-Video 变体的持续训练始于预训练的 5 秒 SANA-Video 模型。为了与预训练模型的分布对齐,本文提出了一种单调递增的 SNR 采样器。具体来说,随机选择一个块,并使用 SNR 采样器为其采样一个时间步长。然后,通过传播概率 为剩余的块采样时间步长,确保所有时间步长单调递增,即后面的块具有比前面块更大的时间步长。这个提出的时间步长采样器提供了两个关键优势。首先,单调递增的时间步长比随机时间步长具有更小的采样空间,从而导致更快的收敛和更好的性能。其次,将 SNR 采样器应用于随机选择的块可以保证每个块都经过充分的信息训练。

然而,单调递增的 SNR 采样器无法解决自回归生成中的一个严重问题,即曝光偏差。在训练过程中,条件块是地面实况,而在推理过程中则是生成的内容,这导致了错误累积并限制了长视频生成的性能。Self-Forcing 旨在通过自回归展开解决在基础注意力 DiT 模型中的这一问题。在本文的工作中,本文改进了 Self-Forcing,以更好地利用本文恒定内存的全局 KV 缓存。由于因果基础注意力的显存需求增加,Self-Forcing 在设计的窗口大小内使用局部注意力。因此,它将自生成内容的长度设置为与预训练模型相同(即 5 秒)。相比之下,SANA-Video 中的块线性注意力支持一个小且恒定 GPU 内存的长上下文全局 KV 缓存。这使得本文可以自生成更长的视频(例如 1 分钟)并选择一个片段进行训练,这更好地对齐了训练和推理之间的条件信号。

推理过程中的块线性注意力

本文在自回归推理中遵循 Self-Forcing,使用基于本文设计的 KV 缓存更新。具体来说,本文首先将 KV 缓存初始化为空并开始对第一个块去噪。在它完全去噪后,注意力状态 、键的累积和  以及时空混合 FFN 中卷积的缓存(卷积缓存 )将被存储。对于剩余的块(例如,第  个块),它们将使用现有的 KV 缓存对潜在变量去噪直至干净,然后更新累积注意力状态  和键的累积和 。同时,卷积缓存  将被新缓存替换。这样的更新利用了全局性,同时保持内存恒定和小,使得长视频生成高效和有效。

深度压缩视频自动编码器

SANA-Video 使用 Wan-VAE 在 480P 视频生成中实现了高效和高质量。然而,即使使用本文高效的线性注意力,生成 720P 视频的速度仍然慢了 2.3 倍。对于全注意力的 DiT 模型,这种效率下降更为严重(例如 Wan 2.1 1.3B 慢 4 倍),这促使本文探索一种能够压缩更多 token 的更高效的 VAE。本文将 DCAE 微调为 DCAE-V,具有空间下采样因子 ,时间因子 ,以及通道数 。潜在通道的数量与本文预训练的 T2I 模型对齐,使得从图像到视频模型在相同的潜在空间中快速适应。

同时进行的 Wan2.2-5B 模型也实现了 32 倍的空间压缩,通过结合具有空间下采样因子 16 的 VAE 和 2 的补丁嵌入压缩。DCAE-V 相对于 Wan2.2-VAE 的优势有两个。首先,DCAE-V 的 32 个潜在通道与本文预训练的 T2I 模型对齐,提高了收敛速度。其次,为了实现相同的压缩比,Wan2.2-VAE 需要模型预测一个更大的潜在维度(192 对比 DCAE-V 的 32),这对于小型扩散模型来说是一项困难的任务。如下表 3 所示,DCAE-V 展示了与其他最先进的 VAE(如 Wan2.1、Wan2.2 和 LTX-Video)相当的重建性能。这种高压缩使本文的模型能够在性能上与更大的模型(例如 Wan2.1-14B 和 Wan2.2-5B)相媲美,同时表现出显著的加速,如下表 2 所示。具体来说,SANA-Video 可以在仅 36 秒内生成一个 720P 5 秒的视频,比 Wan2.1-14B 加速了 53 倍。与与本文共享相同压缩比的 Wan2.2-5B 相比,SANA-Video 实现了 3.2 倍的加速。

图片
图片

数据过滤 Pipeline

为了策划本文的训练数据集,收集了公共的真实和合成数据,并实施了一个多阶段的过滤范式。首先,本文使用 PySceneDetect 和 FFMPEG 将原始视频剪辑成单个场景的短片。对于每个视频片段,本文分析其美学和运动质量,并提供详细的字幕。具体而言,运动质量通过 Unimatch(光流)和 VMAF(像素差异)测量,仅保留运动适中且清晰的片段。此外,平均光流被用作运动幅度的表示,注入提示以更好地控制运动。美学质量通过预训练的视频美学模型(DOVER)和使用 OpenCV 获得的关键帧饱和度来测量,低美学评分和过度饱和的视频会被移除。最后,本文根据严格的运动和美学标准收集了大约 5,000 个符合人类偏好的高质量视频。SFT 数据收集了多样且平衡的运动和风格类别,这可以进一步提高整体性能。

实验

实现细节

流水线设置。 对于 DiT 模型,为了最佳利用预训练的文本生成图像模型 SANA,本文的 SANA-Video-2B 几乎与原始 SANA 相同,包括扩散变换器模型和仅有解码器的小型文本编码器。对于 480P 视频,本文使用 Wan2.1-VAE 自动编码器。对于 720P 高分辨率视频生成,本文微调了 DCAE 成为视频深度压缩自动编码器(DCAE-V),以促进更高效的训练和推理。本文的最终模型在 64 个 H100 GPU 上训练了大约 12 天。

性能比较与分析

SANA-Video 与最先进技术的综合效率和性能比较如下表 4 所示。本文采用 VBench 作为性能评估指标,并将 480P 81 帧视频的生成延迟作为效率指标。如下表 4 所示,SANA-Video 展现了 60 秒的显著延迟,使其成为比较中最快的模型。这意味着其吞吐量比 MAGI-1 快 7.2 倍,比 Step-Video 快超过 4 倍。在比较中,SANA-Video 在文本生成视频中获得了 83.71 的总分,与大型模型 Open-Sora-2.0(14B)相当,并超越了 Wan2.1(1.3B)。此外,SANA-Video 在图像生成视频中取得了 88.02 的总分,超越了大型 DiT 模型 Wan2.1(14B)和 HunyuanVideo-I2V(11B)。此外,SANA-Video 在所有方法中实现了最佳的语义/I2V 得分,展示了强大的视觉-文本语义对齐能力。

图片

消融研究

本文随后对前文中讨论的重要架构修改进行了消融研究。如下图 6 所示,本文提供了在 H100 GPU 上的训练损失曲线和延迟配置文件。

图片

线性注意力模块。 采用了三个关键设计来增强本文的线性注意力模型。首先,本文整合了3D RoPE以将线性注意力集中在局部特征上(上图3)。这提升了性能,如显著降低的训练损失所示(上图6(a))。其次,为了解决线性注意力与标准注意力之间的差异,本文引入了空间-时间混合 FFN 模块。其训练损失曲线(图6(b))表明,1D 时间卷积层显著提升了性能。最后,线性注意力设计提供了显著的效率优势。如上图6(c)所示,本文的模型在更高分辨率下的延迟变得更低,在480P下实现了2倍加速,在720P下实现了4倍加速,证明了其在高分辨率视频生成中的优越效率。

单调增加的 SNR 采样器。 本文将提出的单调增加的 SNR 采样器与自回归块训练中的随机时间步采样进行了比较。如上图6(d)所示(两列来自不同的块),单调增加的 SNR 采样器在各个块中实现了更好的质量和更高的一致性。

长视频生成。 本文将 SANA-Video 与先前的自回归视频生成方法在 VBench 上进行了比较,如表5所示。SANA-Video 的性能与 Self-Forcing 相当,同时优于 SkyReel-V2 和 CausVid。

图片

应用和部署

作为一个预训练模型,SANA-Video 可以轻松扩展到多个视频生成应用。首先,本文将 SANA-Video 应用于几个世界模型应用(图1和附录E):具身 AI、自动驾驶和游戏生成。(其次,本文将模型量化为 NVFP4 以实现高效推理。

4位量化的设备端部署。 为了促进高效的边缘部署,本文使用 SVDQuant 将 SANA-Video 从 BF16 量化为 NVFP4 格式。为了平衡效率和保真度,本文选择性地量化以下层:自注意力中的 QKV 和输出投影,交叉注意力中的查询和输出投影,以及前馈层中的 1x1 卷积。其他组件(归一化层、时间卷积和交叉注意力中的 KV 投影)保持较高精度,以保持语义质量并防止累积误差。如图7所示,这一策略将单个 RTX 5090 GPU 上生成一个 720p 5秒视频的端到端时间从71秒减少到29秒,实现了2.4倍的延迟加速,同时保持了与 BF16 基线无法区分的质量。

结论

SANA-Video,这是一种小型扩散模型,能够以极快的速度和较低的硬件要求高效生成高分辨率、高质量和长时间的视频。SANA-Video 的重要性在于以下几个改进:以线性注意力作为核心操作,在大量令牌的视频生成任务中显著提高了效率;具有常量内存 KV 缓存的块线性注意力,支持生成分钟级长的视频且内存成本固定;有效的数据过滤和模型训练策略,将训练成本缩减到在 64 个 H100 GPU 上仅需 12 天。在如此低的成本下,SANA-Video 展示了比现代最先进的小型扩散模型快 16 倍的速度,同时性能具有竞争力。

参考文献

[1] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码免费加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!

AI生成未来知识星球免费开放! 点击下方 卡片 ,关注" AI生成未来 " 👇扫码 免费加入 AI知识星球 ,如您有工作需要分享,欢迎联系: aigc_to_future 作者:Junsong Chen 等 解读:AI生成未来 论文链接:https://...