ShotStream是一种因果式多镜头视频生成架构,实现16帧/秒实时生成,支持流式提示输入和边拍边改。通过双缓存记忆机制与两阶段蒸馏,在保持视觉一致性的同时,显著降低推理延迟。适用于AI视频生成研究、交互式叙事开发等场景。
Tags:
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Yawen Luo等
文章链接: https://arxiv.org/pdf/2603.25746 项目链接: https://luo0207.github.io/ShotStream/
亮点直击
ShotStream,一种新颖的因果式多镜头长视频生成架构,实现了交互式叙事和实时合成。 将多镜头合成重新定义为"下一镜头生成"任务以支持交互性,允许用户通过流式提示动态调整进行中的叙事。 设计了一种新颖的双缓存记忆机制,结合RoPE不连续指示器,确保因果模型在镜头间和镜头内的一致性。 提出了一种两阶段蒸馏策略,通过弥合训练与推理之间的差距来有效减轻误差累积,从而实现稳健的长时序多镜头生成。
总结速览
解决的问题
现有双向架构的多镜头视频生成方法存在两大局限:一是缺乏交互性,需要预先提供所有提示,无法在生成过程中动态调整叙事;二是推理延迟高,难以实现实时生成。
提出的方案
本文提出 ShotStream,一种新颖的因果式多镜头生成架构。该架构将多镜头生成重构为自回归的"下一镜头"生成任务,并引入流式提示机制。同时,通过将双向教师模型蒸馏为因果学生模型,并结合双缓存机制和两阶段蒸馏策略来解决因果架构带来的挑战。
应用的技术
将文本到视频模型微调为双向的"下一镜头"预测教师模型; 通过分布匹配蒸馏(DMD)将教师模型蒸馏为高效的4步因果学生模型; 双缓存记忆机制(全局缓存保证镜头间一致性,局部缓存保证镜头内一致性)和RoPE不连续指示器; 两阶段蒸馏策略(镜头内自强迫和镜头间自强迫)以缓解误差累积。
达到的效果
ShotStream在单个GPU上实现了16 FPS的实时生成速度,在视觉一致性、提示遵循度和镜头转换控制等定量指标上达到或超越了较慢的双向模型。用户研究也表明,ShotStream在视觉一致性、提示遵循度和视觉质量上获得了最高的用户偏好率。
架构方法
这里详述ShotStream 的架构和训练方法。首先将一个文本到视频模型微调成一个双向的下一镜头模型。随后,通过分布匹配蒸馏(Distribution Matching Distillation),将该模型蒸馏成一个高效的4步因果模型。同时,还提出了一种新颖的双缓存记忆机制和两阶段蒸馏策略,以实现高效、稳健且长时序的多镜头生成。
双向下一镜头教师模型
下一镜头模型的目标是在历史镜头的条件下生成后续镜头。由于历史镜头包含数百帧且存在高度视觉冗余,保留完整历史信息既无必要,在有限的条件预算下也不可行。因此,本文通过一种动态采样策略提取稀疏的上下文帧来作为条件。给定 个历史镜头和一个最大条件上下文预算 帧,从每个历史镜头中采样 帧,其中 表示向下取整函数。任何剩余的预算会分配给最近的一个镜头以充分利用预算,在本文实验中该预算设置为6帧。
为了将采样的稀疏上下文帧 作为条件,本文采用了时间token拼接机制,这是一种在多控制生成、编辑和相机运动克隆中被证明有效的注入技术。虽然有效,但这些方法并未区分条件帧和目标帧的提示词;相反,它们将目标帧的提示词统一应用于条件帧。直接将此方法应用于下一镜头生成会产生问题,因为先前镜头的提示词包含了将过去视觉信息与文本描述绑定起来的关键信息。这种绑定有助于提取生成后续镜头所需的必要上下文。因此,本文还将每个条件上下文帧对应的特定提示词注入模型,即每个镜头的帧通过交叉注意力关注全局提示词和对应的局部镜头提示词。如下图3所示,本文的下一镜头模型复用了基础模型的3D VAE 来将 转换为条件隐向量,
其中 包含 帧, 是通道数,空间分辨率为 。基于这个共享的隐空间,本文首先将条件隐向量 和带噪的目标隐向量 (包含 帧)进行分块处理:
得到的条件token 和带噪视频token 随后沿着帧维度拼接,形成 DiT 块的输入:
符号 FrameConcat 表示条件token与噪声token沿帧维度进行拼接。由于token序列 和 共享相同的批大小 b、每帧的空间token数s 和特征维度d,这种时间拼接产生了组合张量。在训练过程中,噪声仅添加到目标视频token中,保持上下文token干净。这种设计使得 DiT 原生的3D自注意力层可以直接建模条件token和噪声token之间的交互,而无需为基础模型引入新层或参数。
因果架构与蒸馏
前面详细描述的双向下一镜头教师模型大约需要50步去噪步骤,导致推理延迟高。为了实现低延迟生成,本文将这个多步教师模型蒸馏成一个高效的4步因果生成器。然而,转向这种因果架构引入了两个主要挑战:1)保持镜头间的一致性,以及2)防止误差累积以维持自回归生成过程中的视觉质量。为了解决这些问题,本文提出了两项关键创新:一个双缓存记忆机制和一个两阶段蒸馏策略。
双缓存记忆机制。 为了保持视觉连贯性,本文引入了一种新颖的双缓存记忆机制(如下图4所示):一个全局缓存存储稀疏的条件帧以保持镜头间的一致性,而一个局部缓存则保留最近生成的帧以确保镜头内的一致性。然而,在本文的块状因果架构中同时查询这两个缓存会引入时间上的模糊性,因为模型难以区分历史上下文和当前镜头上下文。为了解决这个问题,本文提出了一种不连续的RoPE策略,通过在每次镜头边界引入一个离散的时间跳跃,明确地将全局和局部上下文解耦。具体来说,对于第k 个镜头中的第 t 个隐向量,其时间旋转角度的公式为,其中 表示基础时间频率, 作为表示镜头边界不连续性的相位偏移。
两阶段蒸馏策略。 自回归多镜头视频生成中的一个主要挑战是由训练-推理差距导致的误差累积。为了缓解这个问题,本文提出了一种两阶段蒸馏训练策略。
在第一阶段,镜头内自强迫(如下图4所示,步骤2.1),模型从真实历史镜头中采样全局上下文帧,而块状因果生成器则通过时间自回归展开生成目标镜头。具体来说,局部缓存利用当前目标镜头中先前自生成块的数据,而非真实数据。虽然这一阶段建立了基础的下一镜头生成能力,但训练-推理差距仍然存在:在推理过程中,模型必须依赖自身可能不完美的历史镜头作为条件,而不是真实数据。
为了弥合这一差距,本文引入了第二阶段:镜头间自强迫(如下图4所示,步骤2.2)。因果模型从头开始生成第一个镜头并应用DMD。对于所有后续迭代,生成器完全基于先前自生成的镜头来合成下一个镜头。在每次迭代中,模型继续采用镜头内自强迫来逐块生成每个新镜头,并仅对新生成的镜头应用DMD。这种自回归展开一直持续到整个多镜头视频生成完毕。通过紧密模仿推理时的展开过程,此阶段使训练与推理对齐,有效减轻了误差累积并提升了整体视觉质量。
推理。 ShotStream的推理过程与其训练过程完全一致。ShotStream以逐个镜头的方式生成多镜头视频。当生成每个新镜头时,通过从先前合成的历史镜头中采样来更新全局上下文帧。在当前镜头内,视频帧利用本文的因果少步生成器和KV缓存,逐块顺序生成,确保了计算效率。
实验
实验设置
实现细节:基于 Wan2.1-T2V-1.3B 构建 ShotStream,生成 的视频片段。双向下一镜头教师在包含32万条多镜头视频的内部数据集上训练。对于因果适应,学生模型通过在5千对教师采样的ODE解上进行回归来初始化。蒸馏分两个阶段进行:第一阶段使用数据集中的真实历史镜头进行镜头内自强迫;第二阶段使用一个5镜头视频子集的提示词进行镜头间自强迫。模型操作中,块大小为3个隐向量帧,使用2个块的全局缓存和7个块的局部缓存。 评估集:为了全面评估多镜头视频生成能力,本文遵循先前工作,利用 Gemini 2.5 Pro 生成了100个多样化的多镜头视频提示。这些测试提示涵盖了广泛的主题。 评估指标:在计算指标前,使用预训练的 TransNet V2 检测每个视频中的镜头边界。本文从五个关键维度评估模型的多镜头性能:1)镜头内一致性(主体一致性和背景一致性);2)镜头间一致性(主体、背景和语义一致性);3)转换控制(镜头剪切准确度 SCA);4)提示遵循度(文本对齐);5)整体质量(美学质量和动态程度)。 基线模型:比较了两种类型的开源视频生成模型:1)双向多镜头视频生成模型:Mask2DiT、EchoShot、CineTrans;2)自回归和交互式长视频生成模型:Self Forcing、LongLive、Rolling Forcing、Infinity-RoPE。
定量结果
如下表1所示,本文模型在主要指标上均优于对比方法。它实现了最高的视觉一致性,同时保持了对镜头转换的精确控制。此外,本文方法在单个镜头的提示对齐和整体美学质量方面也表现出色。在推理效率上,与双向模型相比,本文方法的吞吐量(FPS)提升了25倍以上。同时,它还能以相对于其他因果长视频模型最小的速度损耗实现自回归长多镜头视频生成。
定性结果
如下图5所示,本文提供了一个复杂的、叙事驱动的多镜头提示的定性比较。基线方法(包括 Mask2DiT、CineTrans、Self Forcing 和 Rolling Forcing)未能生成与其各自提示对齐的镜头。虽然 EchoShot 和 Infinity-RoPE 成功适应了单个镜头指令,但它们在镜头间一致性方面表现不佳。LongLive 混淆了在序列中出现的两个女性的身份。相比之下,本文的方法在忠实于多镜头提示的同时,实现了高视觉一致性和平滑的过渡。
用户研究
由于评估多镜头视频生成的主观性,本文进行了一项用户研究,以比较不同方法并验证所提出的 ShotStream 的感知优势。用户研究涉及54名参与者,结果如下表2所示,表明本文方法在大多数用户中持续获得偏好。
消融研究
本文进行了消融研究,以验证双向下一镜头教师模型和因果学生模型的关键设计选择和训练策略。
双向下一镜头教师模型设计:如下表3所示,本文验证了在上下文帧采样策略、条件帧提示策略、条件注入机制和训练策略四个关键方面的设计选择。结果表明,动态采样策略、多提示注入、帧拼接注入机制以及仅微调3D自注意力层均是有效的。
因果学生模型设计:如下表4所示,本文对因果模型的设计和蒸馏策略进行了消融。1)双缓存区分策略:结果表明,显式区分全局和局部缓存至关重要(第1行 vs. 第3行),并且本文提出的免训练RoPE偏移方法优于可学习嵌入方法(第2行 vs. 第3行)。2)因果蒸馏训练策略:本文评估了两阶段蒸馏策略与单阶段基线的效果。两个阶段都不可或缺:阶段1建立了基础的下一镜头生成能力,而阶段2通过忠实模拟推理来弥合训练-推理差距。此外,如下图6中的定性结果强化了RoPE偏移和两阶段蒸馏的必要性。值得注意的是,镜头间自强迫蒸馏显著改善了视频在视觉风格和色彩上的长期一致性("仅阶段1" vs. "本文方法")。
总结
ShotStream,一种新颖的因果式多镜头视频生成架构,它能够在单个GPU上实现16 FPS的实时生成,并支持交互式长叙事。核心贡献包括:将下一镜头生成任务重新定义为流式任务,训练一个双向的下一镜头教师模型,并通过提出的两阶段蒸馏策略将其蒸馏为因果架构。此外,本文还引入了一种新颖的双缓存记忆机制以确保视觉一致性。与现有的双向多镜头模型相比,ShotStream显著降低了生成延迟,并支持运行时的流式提示输入。这使用户能够交互式地引导叙事,根据先前生成的内容调整即将到来的镜头。此外,ShotStream通过扩展自回归长视频生成模型的能力,使其能够生成连贯的多镜头序列,为实时、交互式的长篇叙事铺平了道路。
局限性与未来工作。 尽管 ShotStream 在自回归多镜头视频生成方面表现有效,但本文指出了两个主要局限性。首先,当场景和文本提示高度复杂时,观察到视觉伪影和不一致性。这主要源于主干网络容量有限;由于当前模型相对较小,预计扩大基础模型规模将提升在挑战性场景下的性能和稳定性。其次,虽然本文方法高效,但仍有加速空间以提供更好的交互体验。诸如稀疏注意力和注意力汇聚(attention sink)等技术可以集成到本文的模型中,以实现更快的生成。这些扩展将留待未来研究。
参考文献
[1] ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论