论文名:Step-Video-T2V Technical Report: The Practice, Cha
论文名:Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model
论文链接:https://arxiv.org/pdf/2502.10248
开源代码:https://github.com/stepfun-ai/Step-Video-T2V
导读
视频基础模型是一种在大型视频数据集上进行预训练的模型,它可以根据用户的文本、视觉或多模态输入生成视频。该模型可应用于广泛的下游视频相关任务,如文本/图像/视频到视频的生成、视频理解与编辑,以及基于视频的转换、问答和任务完成等。
简介
我们推出了Step-Video-T2V,这是一个具有300亿参数的先进文本到视频预训练模型,能够生成长达204帧的视频。我们设计了一种深度压缩变分自编码器Video-VAE用于视频生成任务,在保持卓越视频重建质量的同时,实现了的空间压缩比和的时间压缩比。使用两个双语文本编码器对用户提示进行编码,以处理英语和中文。采用流匹配(Flow Matching)方法训练具有3D全注意力机制的DiT,并用于将输入噪声去噪为潜在帧。应用基于视频的直接偏好优化方法Video-DPO来减少伪影并提高生成视频的视觉质量。我们还详细介绍了训练策略,并分享了关键观察结果和见解。在一个全新的视频生成基准测试Step-Video-T2V-Eval上对Step-Video-T2V的性能进行了评估,结果表明,与开源和商业引擎相比,它具有最先进的文本到视频生成质量。此外,我们讨论了当前基于扩散模型范式的局限性,并概述了视频基础模型的未来发展方向。
模型
Step - Video - T2V的整体架构如图1所示。视频由高压缩的视频变分自编码器(Video - VAE)表示,实现了16×16的空间压缩比和8×的时间压缩比。用户提示使用两个双语预训练文本编码器进行编码,以处理中英文。一个具有3D全注意力机制的DiT使用流匹配(Flow Matching,Lipman等人 [2023])方法进行训练,并用于将输入噪声去噪为潜在帧,文本嵌入和时间步长作为条件因素。为了进一步提高生成视频的视觉质量,应用了基于视频的DPO方法,该方法有效地减少了伪影,确保了更平滑、更逼真的视频输出。
图1:Step - Video - T2V的架构概述。视频由高压缩的视频变分自编码器(Video - VAE)表示,实现了16×16的空间压缩比和8×的时间压缩比。用户提示使用两个双语预训练文本编码器进行编码,以处理中英文。一个具有3D全注意力机制的DiT使用流匹配方法进行训练,并用于将输入噪声去噪为潜在帧,文本嵌入和时间步长作为条件因素。为了进一步提高生成视频的视觉质量,应用了基于视频的DPO方法,该方法有效地减少了伪影,确保了更平滑、更逼真的视频输出。
接下来,我们将分别介绍视频变分自编码器(Video-VAE)、双语文本编码器、具有3D全注意力机制的去噪扩散变换器(DiT)和视频直接偏好优化(Video-DPO)的实现细节。
1. 视频变分自编码器(Video-VAE)
1.1. 视频生成中的潜在空间压缩
最先进的视频模型,如混元视频(HunyuanVideo)[Kong等人,2025]、认知视频X(CogVideoX)[Yang等人,2024a]和元电影生成器(Meta Movie Gen)[Polyak等人,2024],采用了时空下采样因子为或的变分自编码器(VAEs)。这些变分自编码器将3通道的RGB输入映射到16通道的潜在表示,实现了高达1:96的压缩比。为了进一步减少标记数量,这些系统通常使用块化器将个潜在块组合成单个标记。
虽然这种压缩和标记化的两阶段过程是有效的,但它增加了架构的复杂性,并可能降低后续扩散阶段的性能。文本到视频扩散变换器模型的效率从根本上取决于它们在压缩潜在空间中运行的能力。由于注意力操作的计算成本与标记数量的平方成正比,因此通过有效压缩来减少时空冗余至关重要。这不仅可以加速训练和推理,还符合扩散过程对紧凑表示的内在偏好。
图2:视频变分自编码器(Video-VAE)的架构概述。
1.2. 通过新架构推进压缩技术
我们的视频变分自编码器(Video - VAE)在编码器后期和解码器早期引入了一种新颖的双路径架构,具有统一的时空压缩特性。这种设计通过协同使用三维卷积和优化的像素重排(pixel unshuffling)操作实现了下采样。对于输入视频张量,编码器通过以下方式生成潜在表示:
因果三维卷积模块 编码器的早期阶段由三个阶段组成,每个阶段都有两个因果残差三维块(Causal Res3DBlock)和相应的下采样层。在此之后,一个中间块(MidBlock)将卷积层与注意力机制相结合,以进一步优化压缩表示。为了实现图像和视频的联合建模,我们采用了时间因果三维卷积。我们的架构通过以下方式实现时间因果性:
其中是时间核大小,确保帧仅依赖于先前的帧。
双路径潜在融合 双路径潜在融合的主要动机是通过卷积处理保留高频细节,同时通过通道平均保留低频结构。值得注意的是,陈等人(Chen et al. [2025])在图像变分自编码器(VAE)建模领域也发现了类似的机制。然而,我们的方法引入了一种统一的结构,能够同时处理图像和视频数据。这种方法使网络能够更有效地利用其参数,从而克服了传统变分自编码器通常会出现的模糊伪影问题。
卷积路径:将因果三维卷积与像素重排相结合,
其中 具有空间步长 、时间步长 ,并且 表示我们的因果 卷积。
捷径路径:通过分组通道平均来保留结构语义。
其中 实现了具有时空分块的 3D 像素反重排, 是下一阶段的潜在维度。融合的输出通过残差求和将两条路径结合起来:
1.3. 解码器架构
解码器的早期阶段由两个对称的双路径架构组成。在这些架构中,3D 像素反重排操作 被 3D 像素重排算子 取代,分组通道平均路径被分组通道重复操作取代,该操作有效地将压缩信息展开到时空维度。在残差网络(ResNet)主干中,我们将所有组归一化(groupnorm)替换为空间组归一化(spatial groupnorm),以避免不同块之间出现时间闪烁。
1.4. 训练细节
我们的变分自编码器(VAE)训练过程经过精心设计,分为多个阶段,这是实现高效、高质量视频数据建模这一最终目标的关键原因。
在第一阶段,我们以的压缩比训练一个变分自编码器(VAE),不采用双路径结构。这一初始训练是在不同帧数的图像和视频上联合进行的,遵循预设比例。在这个阶段,我们为模型设定较低的压缩目标,以便其充分学习低级表征。
在第二阶段,我们通过在编码器和解码器中都加入两个双路径模块来增强模型,替换中间块之后的后半部分。在此阶段,我们逐步解冻双路径模块、中间块和残差网络(ResNet)主干,从而实现更精细、灵活的训练过程。
在整个训练过程中,我们结合使用L1重建损失、视频感知损失(Video-LPIPS)和KL散度约束来引导模型。一旦这些损失收敛,我们引入生成对抗网络(GAN)损失以进一步优化模型性能。这种分阶段的方法确保了变分自编码器(VAE)的稳健性和高质量,使其能够高效处理复杂的视频数据。
2. 双语文本编码器
文本编码器在文本到视频生成中起着至关重要的作用,它在潜在空间中引导模型。在Step-Video-T2V中,我们使用两个双语文本编码器来处理用户的文本提示:混元CLIP(Hunyuan-CLIP)和Step大语言模型(Step-LLM)。
混元CLIP(Hunyuan-CLIP)是开源双语CLIP模型的双向文本编码器,该模型由李等人于2024年提出 [2024b]。由于CLIP模型的训练机制,混元CLIP能够生成与视觉空间良好对齐的文本表示。然而,由于其最大输入长度限制为77个词元,混元CLIP在处理较长的用户提示时面临挑战。
另一方面,Step-LLM是一个内部使用的单向双语文本编码器,它使用下一个词元预测任务进行预训练。它采用了重新设计的Alibi位置嵌入(Alibi-Positional Embedding,Press等人于2022年提出 [2022]),以提高序列处理的效率和准确性。与混元CLIP不同,Step-LLM没有输入长度限制,因此在处理冗长复杂的文本序列时特别有效。
通过结合这两个文本编码器,Step-Video-T2V能够处理不同长度的用户提示,生成强大的文本表示,从而在潜在空间中有效地引导模型。
3. 带有3D全注意力机制的DiT
Step-Video-T2V基于DiT(皮布尔斯和谢[2023])架构构建,该架构包含300亿个参数,有48层。每层包含48个注意力头,每个头的维度设置为128。Step-Video-T2V中使用的超参数设置概述见表1。3D全注意力:我们在Step-Video-T2V中采用3D全注意力而非时空注意力,这种方式计算效率更高。做出这一选择是因为它在对视频中的空间和时间信息进行建模方面有理论上限,并且通过大规模实验观察到,它在生成具有平滑一致运动的视频方面具有优势。
图3:我们的双语文本编码器和带有3D注意力的DiT的模型架构。
文本提示的交叉注意力:我们在每个Transformer块的自注意力和前馈网络(FFN)之间引入了一个交叉注意力层,以融入文本提示。这一层使模型在处理视觉特征时能够关注文本信息。如§4.2所述,提示使用两个不同的双语文本编码器(混元CLIP(Hunyuan-CLIP)和Step大语言模型(Step-LLM))进行嵌入。这两个编码器的输出沿序列维度拼接,形成最终的文本嵌入序列。然后将这个组合嵌入注入交叉注意力层,使模型能够根据输入提示生成视频。
具有优化计算的自适应层归一化(AdaLN):在标准的DiT中,每个块都包含一个自适应层归一化(AdaLN)操作,用于嵌入时间步和类别标签信息。由于文本到视频任务不需要类别标签,我们从AdaLN中移除了类别标签。此外,我们遵循陈等人[2023]的方法,采用AdaLN-Single结构,以减少传统AdaLN操作的计算开销,提高整体模型效率。在模型的第一层,AdaLN使用一个多层感知机(MLP)块来嵌入时间步信息。在后续层中,初始化一个可学习参数来总结时间步嵌入,然后将其用作每个块中自适应归一化的参数。
:我们使用RoPE-3D,它是传统基于旋转的位置编码(RoPE,苏等人[2023])的扩展,专门设计用于处理视频数据,同时考虑时间(帧)和空间(高度和宽度)维度。原始的RoPE-1D对位置编码应用旋转变换,以实现对不同长度序列中位置的灵活连续表示。旋转变换是通过将位置处的位置编码旋转一个角度来应用的,其中是控制旋转速率的周期,从而得到编码。为了将其扩展到视频数据,我们引入了RoPE-3D。这种方法沿通道维度分割查询和键张量,分别对时间(帧)和空间(高度和宽度)维度的每个张量独立应用RoPE-1D。然后将得到的编码拼接起来。这种方法使模型能够有效处理不同长度和分辨率的视频输入。RoPE-3D具有几个优点,例如能够处理不同帧数和分辨率的视频,而不受固定位置编码长度的限制。它提高了模型在不同视频数据上的泛化能力,并有效捕捉视频内的空间和时间关系。通过为三维视频数据提供连续灵活的编码,RoPE-3D增强了模型处理和生成高质量视频内容的能力。
查询-键归一化(QK-Norm):我们使用查询-键归一化(Query-Key Normalization,QK-Norm)来稳定自注意力机制。QK-Norm对查询向量(Q)和键向量(K)之间的点积进行归一化,解决了因大的点积导致的数值不稳定问题,这种不稳定可能会导致梯度消失或注意力过度集中。这种归一化确保了训练期间注意力的稳定性,加速了收敛,并提高了效率,使模型能够专注于学习有意义的模式。此外,QK-Norm有助于保持注意力权重的平衡分布,增强了模型捕捉输入序列内关系的能力。
3.1 视频和图像生成的训练目标
我们在Step-Video-T2V的训练中使用流匹配(Flow Matching)方法。在每个训练步骤中,我们首先对高斯噪声和随机时间步进行采样。然后,我们将模型输入构建为和之间的线性插值,其中是对应于无噪声输入的目标样本。具体来说,我们将定义为:。真实速度表示相对于时间步的变化率,其定义为:
换句话说,捕捉了从初始噪声到目标数据的变化方向和大小。然后,通过最小化预测速度和真实速度之间的均方误差(MSE)损失来训练模型。这里,表示在给定输入和可选的条件输入(例如,一个双语句子)的情况下,模型在时间步预测的速度。训练损失由下式给出:
其中,期望是对所有训练样本取的,是随机时间步,、和从数据集中抽取。项表示模型参数。这种方法确保模型学习预测噪声样本相对于的瞬时变化率,该变化率随后可用于反转扩散过程并从噪声中恢复数据样本。
3.2 推理
在推理过程中,我们首先对随机噪声 进行采样。目标是通过基于常微分方程(ODE)的方法迭代地细化噪声,从而恢复去噪后的样本 。为简单起见,我们采用高斯求解器,并定义一系列时间步 ,其中 ,且 。然后通过对这些时间步进行积分来执行去噪过程。具体而言,去噪后的样本 可以表示为:
其中 表示在给定含噪样本 和可选的条件输入 的情况下,时间步 处的预测速度。积分是在从 到 的时间步上进行计算的,每一项 都乘以相应的时间步差 。这个迭代过程使模型能够从噪声 开始,在定义的时间步内逐步对输入样本进行去噪,朝着目标样本 推进。
4. 视频直接偏好优化(Video-DPO)
人类反馈的整合在大语言模型(LLMs)领域已得到广泛验证,特别是通过诸如基于人类反馈的强化学习(RLHF)等方法(欧阳等人 [2022],克里斯蒂亚诺等人 [2017]),在这些方法中,模型会根据人类反馈调整其生成的内容。最近,这种做法也被应用于图像和视频生成领域,并取得了显著进展。为了提高分步视频文本到视频模型(Step-Video-T2V)的视觉质量,我们设计了一个引入人类反馈的流程。整体流程如图 4 所示,具体细节将在下文讨论。
图 4:整合人类反馈的整体流程。
在分步视频文本到视频模型(Step-Video-T2V)中,我们选择直接偏好优化(DPO)(拉法伊洛夫等人 [2024])作为整合人类反馈的方法。该方法已被证明在各种生成任务中都很有效(华莱士等人 [2024],杨等人 [2024b]),并且该方法的本质很简单,既直观又易于实现。直观地说,给定相同条件下的人类偏好数据和非偏好数据,目标是调整当前策略(即模型),使其更倾向于生成偏好数据,同时避免生成非偏好数据。为了稳定训练,引入了参考策略(即参考模型),以防止当前策略与参考策略偏差过大。策略目标可以表述为:
其中 和 分别指当前策略和参考策略, 和 是首选样本和非首选样本, 表示条件。
为了收集给定 的这些样本 用于训练,我们构建了一个多样化的提示集。首先,我们从训练数据中随机选择一个提示子集,以确保提示的多样性。其次,我们邀请人工标注员根据精心设计的、反映现实世界用户交互模式的指南来合成提示。然后,对于每个提示,Step-Video-T2V 使用不同的种子生成多个视频。人工标注员对这些样本的偏好进行评分。标注过程由质量控制人员监督,以确保准确性和一致性。这个过程产生了一组偏好和非偏好数据,作为模型训练的基础。图 5 展示了两个标注示例。
在每个训练步骤中,我们选择一个提示及其对应的上述正样本和负样本对。每个样本都是由模型本身生成的,确保了更新的平滑性并提高了整体训练的稳定性。此外,为了保持训练数据的一致性,我们通过固定初始噪声和时间步长来对齐正样本和负样本,这有助于更稳定的训练过程。我们在公式 8 中的训练目标基于 DiffusionDPO 方法(华莱士等人 [2024])和 DPO(拉法伊洛夫等人 [2024]),但有轻微修改,将其扩展到流匹配框架。通过将公式 8 中与策略相关的项表示为内部项 ,
可以推导出:
这表明较大的 (例如,DiffusionDPO 中的 5000)在 时可能会导致梯度爆炸,因为它会将梯度放大 倍。因此,需要进行梯度裁剪和极低的学习率(例如,DiffusionDPO 中的 1e - 8)来确保稳定训练,这会导致收敛速度缓慢。为了解决这个问题,我们减小 并提高学习率,从而实现更快的收敛。
人类反馈有效地提高了视觉质量。然而,我们观察到,当模型能够轻松区分正样本和负样本时,这种改进会达到饱和。这种现象可能源于以下原因:Video - DPO 中使用的训练数据是生成的
图5:我们使用相同的提示词(在本例中为"一名芭蕾舞演员在舞蹈工作室练习")生成不同的样本,并将这些样本标注为非首选样本(a)或首选样本(b)。
由模型的早期版本生成。经过多次直接偏好优化(DPO)迭代后,当前策略有了显著改进(例如,现在很少出现失真情况),并且不再与之前迭代的策略一致。因此,使用早期迭代的过时数据更新当前策略会导致数据利用效率低下。为了解决这个问题,我们建议使用人工标注的反馈数据训练一个奖励模型。该奖励模型在训练过程中动态评估新生成样本的质量。奖励模型会定期使用新标注的人工反馈进行微调,以保持与不断演变的策略一致。通过将其集成到流程中,我们可以实时(在线策略)对训练数据进行评分和排序,从而提高数据效率。
5. 分步视频文本到视频加速(Step-Video-T2V Turbo)的蒸馏
用于视频生成的扩散模型在推理过程中通常需要大量的计算资源,通常需要超过50步的常微分方程(ODE)积分才能生成一个视频。减少函数评估次数(NFE)对于提高推理效率至关重要。我们证明,经过大规模训练的视频扩散变压器(Video DiT)可以将NFE减少到仅8步,同时性能下降可以忽略不计。这是通过使用修正流目标的自蒸馏和专门设计的推理策略实现的。
我们的基础模型使用修正流进行训练,蒸馏目标是训练一个2 - 修正流模型[刘等人,2022],该模型在推理过程中有助于更直接的常微分方程路径。正如李等人[2024]所讨论的,2 - 修正流的损失函数可以表述如下:
由于所有训练样本都是由基础1 - 修正模型生成的,因此不可约损失(第一项)相对较小。可约误差(第二项)可以通过对更具挑战性的时间步分配更多权重来有效优化。具体来说,2 - 修正流的训练损失在区间的两端较大,而在中间较小。
我们使用经过精心策划的、包含50次函数评估(NFE)的监督微调(SFT)数据提示分布,并精心设计了正向和负向提示,对约95,000个数据样本进行采样,以构建一个提炼数据集。我们将时间步采样策略修改为U形分布,具体为在上的 ,由于视频模型所需的时间偏移量更大,因此的值更大。
在推理过程中,我们观察到随着训练的推进,模型需要更大的采样时间偏移量和更低的无分类器引导(CFG)系数。通过将这一点与公式11中描述的线性递减CFG调度相结合,我们的模型可以在步数减少多达10倍的情况下达到相当的样本质量。图6展示了我们的Turbo模型在10次函数评估(NFE)下生成的204帧样本。
图6:使用具有10次函数评估(NFE)的Step-Video-T2V Turbo生成的样本。
实验与结果
1. 基准测试与指标
我们构建了Step - Video - T2V - Eval,这是一个用于评估文本到视频模型质量的新基准测试。该基准测试包含128条来自真实用户的中文提示,旨在从11个类别评估生成视频的质量,这些类别包括体育、美食、风景、动物、节日、组合概念、超现实、人物、3D动画、摄影和风格。
此外,我们基于Step - Video - T2V - Eval提出了两个人工评估指标,可用于比较Step - Video - T2V与目标模型的性能:
指标1通过让每位人工标注员在隐藏模型名称的情况下,为两个模型针对同一提示生成的每对视频分配"胜/平/负"标签,来比较Step - Video - T2V与目标模型的性能。"胜"表示Step - Video - T2V的表现优于目标模型,"负"表示其表现不如目标模型,"平"表示两个模型生成的视频质量相近。
指标2为每个生成的视频分配四个分数,以从以下四个维度衡量其质量:(1)指令遵循度,(2)运动流畅度,(3)物理合理性,(4)美学吸引力。然后根据标注的分数比较两个模型的性能。
以下概述了指标2中各维度的评分标准:
指令遵循度。得分=5:视频与提示完全一致,所有元素和细节都准确生成,复杂场景的表达完美无缺。得分=4:视频总体上与提示一致,但在一些细微细节上存在轻微差异。得分=3:视频基本满足提示要求,但在几个细节或核心内容上有明显偏差。得分=2:视频明显与提示不一致,存在重大细节遗漏或整体偏差。得分=1:视频与提示完全不一致,主要场景或主题完全错误。
运动流畅度。得分=5:运动平滑自然,所有动作和过渡都无缝衔接。得分=4:运动总体上流畅,但在某些场景中偶尔会有轻微的不自然动作。得分=3:运动存在轻微的不自然或卡顿元素,但不影响整体理解。得分=2:运动不自然或不连贯,有明显的卡顿。得分=1:运动非常不自然,频繁卡顿,难以理解。
物理合理性。得分=5:所有物体的交互和运动都符合现实世界的物理定律,光照、阴影和碰撞效果准确,运动平滑。得分=4:大多数物理行为合理,偶尔会有轻微的不自然碰撞或光照问题,但不影响整体效果。得分=3:有几个物体运动、光照或交互的情况与物理逻辑冲突,但主要动作仍有一定的连贯性。得分=2:物理行为不真实,光照或物体交互违反物理定律,使场景显得不自然。得分=1:物理行为完全错误,物体交互或光照严重失真,使场景难以理解。
美学吸引力。得分=5:极具吸引力,令人深受感动,具有显著的艺术价值和视觉吸引力。得分=4:令人愉悦且引人入胜,凭借良好的视觉价值有效吸引观众的注意力。得分=3:有一定吸引力,但整体表现平庸,不会给人留下深刻印象。得分=2:一般,缺乏吸引力,可能会让观众失去兴趣。得分=1:令人不悦,缺乏吸引力,整体效果令人失望。
2. 与开源模型的比较
我们首先在Step-Video-T2V-Eval数据集上比较Step-Video-T2V和混元视频(HunyuanVideo)。从表7和表8中我们有三点发现。
首先,分步视频文本到视频模型(Step-Video-T2V)作为迄今为止最强大的开源文本到视频生成模型,展现出了最先进的性能。这一成功归因于多个因素,包括模型的结构设计以及其预训练和后训练策略。其次,如表7所示,在像动物这样的某些类别中,分步视频文本到视频模型(Step-Video-T2V)的表现不如混元视频(HunyuanVideo)。这主要是由于美学问题,如表8中的美学吸引力得分所证实。第三,视频变分自编码器(Video-VAE)实现了16x16空间和8x时间的压缩比,而混元视频(HunyuanVideo)的空间压缩比为8x8,时间压缩比为4x。这种更高的压缩率使分步视频文本到视频模型(Step-Video-T2V)能够生成多达204帧的视频,几乎是混元视频(HunyuanVideo)最大129帧的两倍。
3. 与商业模型的比较
然后,我们在Step-Video-T2V-Eval上,将Step-Video-T2V与中国两款领先的文本到视频引擎T2VTopA(2025年2月10日版本)和T2VTopB(2025年2月10日版本)进行了比较。
从表9、表10和表11中,我们有三点发现。
首先,表9和表10中三个模型的总体排名如下:T2VTopA > Step-Video-T2V > T2VTopB。我们分析了风景、动物、人物和风格等类别,其中Step-Video-T2V的表现比其他两个模型差,发现主要原因在于其他两个模型通常具有更高的美学吸引力。我们认为这一优势主要源于生成视频的分辨率更高(T2VTopA为720P,T2VTopB为1080P,Step-Video-T2V为540P)以及它们在后期训练阶段使用的高质量美学数据。表11还显示,6名标注人员中有4人认为T2VTopA和T2VTopB具有更高的美学吸引力。
其次,在表9和表10的体育类别中,Step-Video-T2V始终优于T2VTopA和T2VTopB,这表明它在建模和生成具有高动态运动的视频方面具有强大的能力。表11还突出了Step-Video-T2V在运动平滑度和物理合理性方面的优势。
第三,我们观察到T2VTopA具有更好的指令遵循能力,这使其在组合概念、超现实和摄影等类别中表现出色。我们认为关键原因在于T2VTopA使用了更好的视频字幕模型,并且在标注后期训练数据时投入了更多的人力。
请注意,Step-Video-T2V在使用540P视频进行预训练的最后阶段仍然缺乏足够的训练,仅见过2530万个样本(如表6所示)。此外,与这两个商业引擎相比,我们在后期训练阶段使用的高质量数据明显较少,未来将不断改进。最后,视频长度为204帧,几乎是T2VTopA和T2VTopB的两倍,这使得我们的训练更具挑战性。我们断言,Step-Video-T2V在所有商业引擎中已经实现了最强的运动动力学建模和生成能力。如果有相当的训练资源和高质量数据,我们相信它在一般领域也能取得最先进的成果。
4. 在Movie Gen Video Bench上的评估
Movie Gen Video Bench(波利亚克等人 [2024])是文本到视频生成任务的另一个现有基准。它包含跨多个类别的1003个提示,涵盖人类活动、动物、自然风景、物理学以及不寻常的主题和活动。虽然Movie Gen Video尚未开源,但其在Movie Gen Video Bench上的生成结果是公开的
图12:从基于提示"在视频中,一个中国女孩穿着精致的传统服装,面带自信优雅的微笑。她拿着一张纸,上面清晰地写着'我们将开源'。背景是一个古老而优雅的场景,与女孩的气质相得益彰。整个场景清晰,具有写实风格。"生成的视频中采样的四帧。
与Movie Gen Video相比,Step-Video-T2V取得了相当的性能。从这次比较中我们有几点观察。首先,Step-Video-T2V的预训练仍然不足。Movie Gen Video在高分辨率预训练阶段使用了7380万个视频进行训练,而Step-Video-T2V仅使用了2730万个视频进行训练,约为Movie Gen Video使用数量的三分之一。此外,我们观察到Step-Video-T2V所有预训练阶段的训练曲线仍呈下降趋势。由于资源限制,我们计划在未来的工作中进行更广泛的预训练。其次,Movie Gen Video论文强调了标注高质量SFT数据集需要大量人力。然而,由于人力资源有限,现阶段我们缺乏足够的高质量标注数据来有效优化生成结果的视觉风格和质量。第三,Movie Gen Video可以生成720P视频,在视觉上比Step-Video-T2V生成的540P分辨率视频更具吸引力。人工标注员的反馈表明,高分辨率通常是决定哪个模型表现更好的关键因素。与混元视频(HunyuanVideo)相比,Step-Video-T2V在所有类别上都取得了显著改进,巩固了其作为最先进的开源文本到视频模型的地位。
5. 生成视频中的文本内容
我们还在一系列提示(如"一只松鼠拿着一个写着'你好'的牌子")上对Step-Video-T2V与开源和商业引擎进行了比较,在这些提示中,模型还需要生成包含文本内容的视频。
我们的观察表明,Step-Video-T2V在生成基本英文文本方面优于所有其他模型。我们将这种能力归因于T2I预训练阶段,在该阶段部分图像包含文本,且字幕明确描述了这些文本。然而,文本生成的准确性仍远不理想。此外,由于汉字的复杂性,Step-Video-T2V目前只能生成有限数量的汉字。提高英文和中文的文本生成能力将是我们未来工作的重点。我们使用来自不同领域的1000个测试视频(每个视频尺寸为50(帧)×480(高)×768(宽))将Video-VAE与几个开源基线进行了比较。如表13所示,尽管我们的压缩比是大多数基线的8倍,但我们的重建质量仍保持着最先进的性能。虽然Cosmos-VAE也提供了一个压缩因子为的高压缩版本,但其重建质量远落后于我们的方法。
图13展示了视频重建中的典型挑战案例,包括高动态场景(第一行)、文本场景(第二行)、纹理场景(第三行)、高动态与文本结合场景(第四行)以及高动态与纹理结合场景(第五行)。我们的模型即使在更高压缩比的情况下,也显著优于其他基线模型。
6. 直接偏好优化(Direct Preference Optimization,DPO)
为评估所提出的视频直接偏好优化(Video-DPO)算法的有效性,我们对300个不同的提示进行推理。评估涉及两个模型:基线模型和采用视频直接偏好优化增强的基线模型(基线模型+DPO)。为控制无关变量并确保公平比较,两个模型均在相同的初始噪声条件下进行采样。对于每个生成的视频,安排三名独立的标注人员评估他们对两个模型生成视频的偏好,同时提供"无偏好"选项。评估协议如下:
如果标注人员更喜欢"基线模型+DPO"生成的视频,则该模型得1分。
如果标注人员更喜欢"基线"模型生成的视频,则基线模型得1分。
如果标注者表示"无偏好",则两个模型各得0.5分。
汇总得分后,我们发现采用直接偏好优化(Direct Preference Optimization,DPO)的基线模型(基线模型+DPO)的偏好得分达到了55%,优于基线模型(45%)。这一结果证明了视频直接偏好优化(Video-DPO)在生成更符合用户偏好的视频方面的有效性。图14中的可视化对比表明,人类反馈提高了生成视频的合理性和一致性。此外,我们观察到基于DPO的基线模型增强了与给定提示的对齐度,从而生成更准确、更相关的视频。
虽然视频直接偏好优化(Video-DPO)显示出有效性,但仍存在一些问题。(1)从初始噪声到特定时间步潜在变量的轨迹作为文本提示之外的隐式动态条件——然而由于计算限制,这一维度仍未得到充分利用。(2)在稀疏反馈和不精确反馈之间存在权衡,尤其是在视频扩散模型中。例如,在像素超过1亿的视频中,可能只有少数像素存在问题,但反馈通常只是一个单一的标量,或者缺乏精确性。(3)与使用词元级别的softmax函数在词元之间形成竞争的大语言模型(LLMs)不同,扩散模型依赖于回归,这可能导致偏好优化效率较低。我们希望这些讨论能提供一些见解,并激发在整合人类反馈方面的进一步算法改进。
总结
本技术报告介绍并开源了Step-Video-T2V,这是一个最先进的文本到视频预训练生成模型,具有300亿参数、深度压缩的视频变分自编码器(Video-VAE)、用于视频生成的直接偏好优化(DPO)方法,以及生成长达204帧视频的能力。我们全面概述了我们的预训练和后续训练策略,并推出Step-Video-T2V-Eval作为评估文本到视频生成模型的新基准。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论