2025年5月14日星期三

性能SOTA,效率更高!清北&阶跃星辰重磅发布GPDiT:扩散与自回归统一的视频生成框架

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Yuan Zhang等

解读:AI生成未来

图片

文章链接:https://arxiv.org/pdf/2505.07344

亮点直击

  • GPDiT,一个强大的自回归视频生成框架,利用帧级因果注意力来提升长时间跨度的时序一致性。为了进一步提高效率,提出了一种轻量级的因果注意力变体,显著降低了训练和推理时的计算成本。
  • 通过重新解释扩散模型的前向过程,引入了一种基于旋转的条件策略,提供了一种无参数的时间信息注入方法。这种轻量级设计消除了与adaLN-Zero相关的参数,同时实现了与最先进的基于DiT的方法相当的模型性能。
  • 大量实验表明,GPDiT在视频生成基准测试中取得了具有竞争力的性能。此外,在视频表征任务和少样本学习任务上的评估展示了其在视频理解能力方面的潜力。
视频生成和Few-Shot学习
视频生成和Few-Shot学习

总结速览

解决的问题

  • 长视频生成的时序一致性不足:传统扩散模型因双向注意力机制(bidirectional attention)导致未来帧影响当前帧预测,破坏因果性,难以保证长序列视频的运动连贯性。
  • 训练和推理效率低:现有方法(如扩散强制,diffusion forcing)存在训练不稳定、独立噪声调度等问题,影响生成质量与计算效率。
  • 离散token建模的局限性:传统自回归模型依赖离散 token 预测,难以自然建模连续视频帧的动态语义。

提出的方案

  • 连续隐空间的自回归扩散框架
    • 将扩散损失(diffusion loss)与自回归建模结合,逐帧预测未来隐空间帧,增强运动动态和语义一致性。
    • 保留帧内全注意力(intra-frame full attention),兼顾序列连贯性与帧内表达能力。
  • 高效架构改进
    • 轻量级因果注意力机制:利用视频时序冗余性,在训练时剔除干净帧间的注意力计算,降低计算成本。
    • 无参数时间条件机制:将噪声注入过程建模为复数平面(complex plane)的旋转,替代传统参数化方法(如 adaLN-Zero),提升效率。

应用的技术

  • 自回归扩散建模:融合扩散模型的隐式时序理解能力与自回归的因果性,实现连续隐空间的视频生成。
  • 因果注意力(Causal Attention):限制噪声帧仅关注前驱干净帧,避免未来信息泄露,支持长序列外推和 KV 缓存加速推理。
  • 复数平面旋转编码:通过数据与噪声分量的复数旋转表示时间步,无需额外参数即可编码时间信息。

达到的效果

  • 生成质量提升:在长视频合成中表现优异,运动动态和语义一致性显著优于传统扩散或纯自回归方法。
  • 表征能力增强:框架兼具生成与表征学习能力,在少样本学习(few-shot learning)任务中表现突出。
  • 效率优化
    • 轻量因果注意力减少计算开销;
    • 无参数时间条件机制简化模型设计,提升训练/推理速度。

生成式预训练自回归扩散Transformer(GPDiT)

本节提出一个结合自回归和扩散模型的有效视频建模框架。首先介绍两种专为帧感知自回归扩散设计的注意力机制变体。然后讨论一种灵活的条件策略,用于处理干净帧和噪声帧。下图2展示了GPDiT框架的总体结构,包括推理流程、GPDiT块的内部架构以及扩散过程的基于旋转的解释。

图片

注意力机制

标准因果注意力

传统的双向注意力机制因破坏时间连贯性且难以保持长视频建模的一致性而受到批评。同时,现有模型大多难以生成超过训练帧长度的高质量视频,因为这些模型只能学习固定长度帧的联合分布。为解决这些问题,本文采用下图3(a)和(c)所示的标准因果注意力,其中每个噪声帧只能关注之前的干净帧和自身,而之间也可以相互关注。

图片

训练目标是

图片

标准因果注意力的一个显著优势是其与键值(KV)缓存的兼容性,在推理过程中能显著加速生成并缩短长视频制作所需时间。

轻量级因果注意力

尽管标准因果注意力的优势明显,但它存在两个主要挑战。首先在训练过程中,为注意力图计算维护噪声序列的干净副本会使内存和计算成本翻倍。其次在推理过程中,长序列预测时token累积导致的KV缓存膨胀会带来极高的内存负担。

为解决这些问题,本文提出了一种利用视频数据空间冗余性的轻量级因果注意力机制。如上图3(b)和(d)所示,消除了干净帧之间的注意力分数计算,从而在不影响模型性能的情况下减少了额外操作。为量化计算节省,分析了标准设计的注意力复杂度。计算开销可分为三个部分:干净上下文之间的注意力()、噪声帧与干净上下文之间的注意力()以及噪声帧间的自注意力(),其中表示帧数。由于干净帧间注意力占总计算的近一半,其移除可大幅降低训练成本。此外在推理时,标准因果注意力要达到复杂度需要维护键值(KV)缓存,导致额外的内存开销。相比之下,我们的方法在无需额外内存成本的情况下实现推理复杂度,显著减少了内存占用。

重新思考时间步条件注入

自适应归一化层零(adaLN-Zero)已被广泛用于将时间步和类别标签嵌入整合到扩散模型主干中,如DiT所述。adaLN-Zero通常设计为MLP模块,用于为每个Transformer块提取类别标签嵌入。然而,现代文本到图像、文本到视频和图像到视频生成任务涉及更复杂的语义嵌入。这些嵌入通常通过沿序列维度的token拼接或交叉注意力等技术注入模型,使得MLP模块主要处理时间步嵌入。[6]的作者认为adaLN-Zero子模块显著增加了模型参数量,约占总增加的28%。这种可观的开销促使研究者寻求更高效的时间条件注入方法,旨在降低计算成本的同时保持或提升性能。

首先考虑(方差保持的)前向扩散过程,其表达式为:

图片

其中是从数据分布中抽取的干净样本,表示标准高斯噪声,。为了便于分析,将问题简化到一维空间(),并将前向过程重新解释为二维空间中的旋转。定义旋转角度为:

图片

使得前向过程可以表示为:

图片

为了从几何角度表示这一过程,将干净样本和噪声堆叠成一个二维向量:。此时前向扩散步骤可以表示为这个二维空间中的正交旋转:

图片

在该公式中,代表常规的扩散样本,而是其正交复数分量。通过应用逆旋转可以恢复原始干净样本和噪声

图片

该模型通过预定义的损失函数(当前分析中假设为未知)训练从输入预测复数分量的能力。所提方法遵循简约原则,在每个模块中对施加角度为的逆向旋转,从而高效注入时间步嵌入且不产生额外计算开销。其他条件形式(如文本或图像条件)可按标准方式融入。

实验

实验设置

在三种场景下进行实验:视频生成、视频表征和少样本学习。结果表明GPDiT展现出卓越的生成与表征能力,这对构建视觉理解与生成的统一模型至关重要,同时能以极小成本迁移至下游任务且无需额外模块。

数据集

  • 视频生成任务
    • UCF-101包含101个动作类别的13,320段视频,广泛用于人体动作识别
    • MSR-VTT为开放域视频描述设计的大规模数据集,包含20个类别的10,000个视频片段,每个片段由Amazon Mechanical Turk工作者标注20条英文描述
  • 视频表征评估:基于UCF-101数据集
  • 少样本学习任务:构建多个监督微调(SFT)数据集,每个任务包含20个视频序列(从40个任务特定图像对中采样三组生成),涵盖人体检测、图像上色、Canny边缘到图像重建及两种风格迁移应用

评估指标

  • 视频生成
    • 从UCF-101随机采样10,000视频,MSR-VTT采样7,000视频
    • 计算所有视频的FVD,以及所有帧的平均FID和Inception Score
  • 视频表征任务:报告线性探测的top-1准确率
  • 少样本学习任务:展示各任务的视频结果并进行定性分析

实现细节。为确保公平比较,基于下表1中的架构设计了一个包含8000万参数的基准模型。在UCF-101数据集上训练时,每个视频经过中心裁剪并调整尺寸至。采用学习率为、批量大小为96的Adam优化器,训练持续40万次迭代。

图片

进一步将模型扩展为20亿参数的变体GPDiT-H(见表1)。首先,使用LAION-Aesthetic的无条件图像数据集进行20万次迭代的预热训练,学习率为,批量大小为960。随后在混合图像-视频数据集上继续训练20万次迭代,其中图像和视频的采样比例相等,批量大小分别为256和64。视频帧每3帧采样一次,并裁剪为17帧片段。每张图像按原始比例中心裁剪至最接近的目标尺寸,视频则调整为。最后,在纯视频数据集上继续训练GPDiT-H模型,视频长度可变(17至45帧)。该阶段额外训练15万次迭代,学习率降至。所得模型记为GPDiT-H-LONG。为压缩视频隐变量,采用WanVAE将四帧压缩为单个隐变量表示。

视频生成

为评估GPDiT框架的泛化能力,在MSRVTT和UCF-101两个零样本视频生成任务上使用GPDiT-H进行实验。训练数据与测试集无重叠,从而验证模型对未见数据的泛化能力。同时,为评估拟合能力,在UCF-101上训练GPDiT-B模型并测量其生成性能。两个模型均基于5输入帧生成12帧视频序列,采用FID、FVD和IS指标评估生成结果。推理时,GPDiT-H使用1.2尺度的分类器无关引导,GPDiT-B则使用2.0尺度。

主要结果。下表2显示GPDiT在MSRVTT上取得FID=7.4和FVD=68的竞争力表现,证明其无需接触测试数据即可处理多样化视频生成任务的有效性。

图片

此外,GPDiT在FID和FVD指标上持续超越先前方法,凸显其处理广泛未见视频数据的潜力。在UCF-101上,GPDiT同样表现优异,IS达66.5、FID为14.8、FVD为243。值得注意的是,经过2400万视频数据训练的GPDiT-H-LONG取得最佳结果(IS=66.6、FID=7.9、FVD=218),进一步展现模型的泛化能力。如下表3所示,仅8000万参数的GPDiT-B-OF2和GPDiT-B-OF均与UCF-101分布高度对齐,分别获得214和216的FVD分数,验证了GPDiT在分布拟合中的有效性及其在不同规模下的稳健性。

图片

下图4展示了在MovieGenBench数据集上基于13输入帧生成并扩展至16帧的视频可视化结果。

图片

视频表征

为评估模型表征能力,采用两种注意力机制对GPDiT-B和GPDiT-H各层特征进行线性探测实验。GPDiT-B在UCF-101上训练,而GPDiT-H使用闭源开放域数据集训练,因此测量的表征能力同时涵盖拟合性与泛化性。探测任务通过全局池化冻结GPDiT模型提取的特征,并训练逻辑层完成UCF-101分类任务构建。每个样本均匀选取间隔3帧的13帧,不经时间旋转输入主干网络。

主要结果。下图5a显示GPDiT-B模型两种注意力机制的分类准确率。值得注意的是,OF2显著优于OF,表明干净上下文帧间交互能提升表征性能,这与直觉一致——干净帧交互增强了模型对内容的理解能力。我们还发现分类准确率在浅层达到峰值,先上升后缓慢下降,这与REPA的分类结果一致:增强的表征能力强化了浅层拟合。这进一步验证GPDiT提升表征质量的能力。图5b展示GPDiT-H-OF2在不同训练步数和层数的分类准确率。随着训练推进,准确率持续提升。此外,由于GPDiT-H-OF2在UCF-101上为零样本,准确率在2/3层达到峰值,与GPDiT-B结果不一致。图5c显示GPDiT-H-OF2生成指标(FVD)与分类准确率的关联性,可见生成能力与表征能力呈明显正相关,表明训练过程中生成性能与理解能力同步提升。

图片

视频小样本学习

预训练的GPDiT展现出强大表征能力,且其自回归范式支持通过序列拼接实现条件生成,无需VACE或IP-Adapter等额外模块即可泛化至其他任务。这促使我们探究预训练模型在灰度转换、深度估计、人体检测、图像上色、Canny边缘到图像重建及两种风格迁移任务中的小样本学习能力。预训练GPDiT-H模型以批量大小4微调500次,优化生成基于输入图像和上下文演示的条件变换结果。测试时,模型使用两对(源,目标)样本作为动态条件输入,为未见源图像生成变换输出。

主要结果。下图6与图7表明GPDiT经小样本学习后可迁移至多下游任务。实验清晰展示模型能轻松实现彩色-黑白图像互转。在人体检测任务中,模型准确区分人数并识别骨骼轮廓。此外,它支持通过边缘图生成受控实例的可控编辑,例如图7显示Canny边缘到图像任务生成的鸟类严格遵循轮廓细节。还探索了流行风格迁移,如TikTok人脸转卡通及GPT4o-吉卜力艺术风格切换(图7)。由于仅需20样本即可完成小样本学习(类似GPT-2),这表明更大规模GPDiT模型可能具备类似GPT-2到GPT-3演进中出现的上下文学习(ICL)能力。

图片
图片

结论

本文提出统一自回归建模与扩散模型的新视频生成框架。方法融合轻量级注意力机制(利用时间冗余降低计算开销)和无参数旋转时间条件策略(高效注入时间信息),这些设计在不损失性能的前提下加速训练与推理。大量实验证明,该模型在视频生成中达到SOTA性能,在视频表征中取得竞争性结果,并在小样本多任务场景中展现强泛化能力,凸显其在多样化视频建模任务中的适应性与通用性。

参考文献

[1] Generative Pre-trained Autoregressive Diffusion Transformer

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

复旦开源Hallo:只需输入一段音频和一张照片就可以让人物说话。

之前和大家介绍过阿里的EMO和腾讯的AniPortrait,用户只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的AI视频。最长时间可达1分30秒左右。 感兴趣的小伙伴可以点击下面链接阅读。 阿里最新EMO:只需要提供一张照片和一段音频,即可生成会说话唱歌的AI...