2025年10月30日星期四

视频生成的下一站?港中文&字节开源VAP :用视频作提示词,性能新SoTA,比肩天价商用

AI生成未来知识星球免费开放!

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Yuxuan Bian等

解读:AI生成未来
图片

论文链接:https://arxiv.org/pdf/2510.20888
项目链接:https://bytedance.github.io/Video-As-Prompt/

亮点直击

  • 提出VAP这一统一语义控制视频生成范式,将具备目标语义的参考视频视为可泛化的上下文控制视频提示。
  • 基于混合Transformer架构构建即插即用的上下文视频生成框架,该框架能有效防止灾难性遗忘,支持多样下游任务,并对未见的语义条件具备强大的零样本泛化能力。
  • 构建并发布当前最大的语义控制视频生成数据集VAP-Data,涵盖100种语义条件,包含超过10万组经专业筛选的配对样本。
图 1 Video-As-Prompt(VAP)是一个统一的语义控制视频生成框架:它将具有所需语义的参考视频视为视频提示,并通过即插即用的上下文混合变换专家来控制生成。第 1 - 6 行:用作不同语义控制视频生成任务(概念、风格、动作、镜头)提示的参考视频。第 7 行:当给定一个未见过的语义时,视频即提示的零镜头泛化结果,显示出很强的泛化能力。
图 1 Video-As-Prompt(VAP)是一个统一的语义控制视频生成框架:它将具有所需语义的参考视频视为视频提示,并通过即插即用的上下文混合变换专家来控制生成。第 1 - 6 行:用作不同语义控制视频生成任务(概念、风格、动作、镜头)提示的参考视频。第 7 行:当给定一个未见过的语义时,视频即提示的零镜头泛化结果,显示出很强的泛化能力。

总结速览

效果展示

解决的问题

  • 统一且可泛化的视频语义控制是行业难题。
  • 现有方法存在缺陷:要么因强加不合适的像素级先验而产生伪影,要么依赖条件特定的微调或专用架构,导致泛化能力不足。

提出的方案

  • 提出名为Video-As-Prompt (VAP) 的创新范式,将问题重新定义为上下文生成任务
  • 核心思想是将参考视频作为直接的语义提示,来引导视频生成模型。
  • 构建并发布了大规模数据集 VAP-Data,以支持该方法并推动后续研究。

应用的技术

  • 即插即用的混合专家Transformer架构:基于混合Transformer构建框架,防止灾难性遗忘。
  • 冻结的视频扩散Transformer:作为基础生成模型,接受语义提示的引导。
  • 时序偏置位置编码:用于消除虚假映射先验,确保鲁棒的上下文检索。

达到的效果

  • 卓越性能:作为单一统一模型,在开源方法中达到新 state-of-the-art,用户偏好度达38.7%,可媲美专业商业模型。
  • 强大的泛化能力:具备强大的零样本泛化能力,能适应未见的语义条件。
  • 广泛的适用性:支持多种下游任务,标志着向通用可控视频生成迈出重要一步。
  • 丰富的资源:发布的VAP-Data数据集为领域内最大的专项数据集,含10万+配对样本。

方法

VAP支持在各种语义条件(例如概念、风格、运动和摄像机参数)下实现统一的语义控制视频生成。本文的核心思路是使用具有目标语义的视频作为统一提示来跨任务指导生成,从而避免针对每个条件进行微调或为每个任务单独设计。尽管本文仅研究了有限的条件集合,但该方法无需重大结构改动即可扩展到其他条件,并在不同语义条件、多样下游任务以及VAP-Data中未见的语义(见下图7)方面展现出良好的泛化能力。

图片

预备知识

视频扩散模型[8,17]学习给定条件下视频的条件分布。以流匹配[46]为例,一个噪声样本沿路径去噪至,其中。模型被训练用于预测速度,其可简化为:。本文通过最小化真实速度与模型预测之间的均方误差损失来优化参数

图片

在推理过程中,模型首先对高斯噪声进行采样,随后使用具有个离散去噪时间步的常微分方程求解器生成

将参考视频作为任务无关提示

语义控制视频生成涵盖多种条件类型(例如概念、风格、运动、摄像机参数)。基于结构控制的方法假设条件与目标间存在像素级对齐;通过残差加法注入语义相同但像素未对齐的视频条件会导致复制粘贴伪影(见下图5(a))。先前语义控制视频生成的研究通过采用按条件微调或按任务设计的方式部分解决了该问题,但将任务孤立处理。相比之下,VAP将参考视频作为视频提示使用,这些提示与目标共享相同语义且独立于任务类别,从而在统一模型中整合异构条件。形式化地,令表示个条件类型(共个条件);先前方法通常微调个(按任务)或最多个(按条件)模型,而本文训练单个统一模型以联合学习任意对应的。本文评估了四种代表性类型——概念()、风格()、运动()和摄像机()——这些类型因具有不同的任务定义而被选中。本文的数据集VAP-Data遵循此分类法,数据集概览见下图3。

图片
图片

• 概念引导生成:共享概念的视频,例如实体转换(如人物变为拉杜杜玩偶)或交互(如AI爱人接近目标)。
• 风格引导生成:具有参考风格(如吉卜力、我的世界)的视频。
• 运动引导生成:遵循参考运动的视频,包括非人体运动(如物体像气球般膨胀)和人体运动(如摇摆舞)。
• 摄像机引导生成:遵循参考摄像机运动的视频,涵盖从基本平移(上、下、左、右、缩放)到希区柯克式滑动变焦。

讨论。本文同时输入参考视频和目标视频的标题()以辅助查找并传递共有的语义控制信号(例如下图6中的"覆盖液态金属")。因此学习条件分布

图片

即插即用上下文控制

本文的模型接收四个主要输入:参考视频(提供目标语义)、参考图像(提供目标初始外观和主体)、标题(辅助定位目标语义)以及噪声(用于推理)或含噪目标视频(用于训练)。本文首先通过VAE将参考视频和目标视频编码为潜表示。此处为原始时间/空间尺寸;为潜空间尺寸。基于个文本标记,一个朴素基线是按照上下文结构控制生成[37]对拼接序列上的DiT进行微调。这在有限数据下易导致灾难性遗忘(上图5(b)、下表2),因为(1) DiT仅预训练用于生成而非上下文条件控制,(2) 本文的参考/目标对缺乏像素对齐先验,使得语义上下文生成更为困难。为稳定训练,本文采用混合Transformer[44]:一个冻结的视频扩散Transformer加上可训练的并行专家Transformer(从主干网络初始化)。专家网络处理,而冻结的DiT处理(见下图4)。二者保持独立的查询、键、值投影、前馈层和归一化层;在每一层中,本文拼接Q/K/V并执行全注意力以实现双向信息融合和上下文控制。这将参考信息塑造成以当前生成为条件的提示,并将引导信号路由至冻结的DiT。通过MoT,本文保留了主干网络的生成能力,提升了训练稳定性,并实现了与DiT架构无关的即插即用上下文控制。

图片
图片

时序偏置旋转位置编码

与上下文图像生成中关于旋转位置编码的观察相似,本文发现参考条件与目标视频共享位置编码并非最优方案:这会强加错误的像素级时空映射先验,使模型假设参考视频与目标视频间存在不存在的映射关系,导致性能不佳(见上图5(c)伪影)。因此,本文将参考提示的时间索引偏移固定量,使其置于所有含噪视频标记之前,同时保持空间索引不变(见上图4右下角)。此举消除了虚假先验,符合上下文生成预期的时间顺序,并带来性能提升(见上表2)。

实验

实现细节

本文在CogVideoX-I2V-5B和Wan2.1-I2V-14B上训练VAP,以评估其在不同DiT架构上的有效性。为公平起见,本文匹配参数数量:在CogVideoX-I2V-5B上,上下文DiT专家是原始模型的完整副本;在Wan2.1-I2V-14B上,它是横跨1/4层数的分布式副本;两者均约为50亿参数。遵循预训练DiT的设置,本文将视频调整为480×720(832)分辨率,并以16 fps采样49帧。本文使用学习率为的AdamW优化器,在48块NVIDIA A100上训练约2万步。推理时,本文使用50个去噪步长和分类器引导尺度6(5)。

评估指标

本文从三个方面评估5项指标:文本对齐度、视频质量和语义对齐度。遵循先前工作,本文使用CLIP相似度衡量文本对齐度,并使用运动平滑度、动态程度和美学质量评估视频质量。本文还引入了语义对齐度得分,用于衡量参考视频与生成视频之间的一致性;本文将每个视频对及详细评估规则提交给Gemini-2.5-pro进行自动评分。

数据集

语义控制视频生成需要配对的参考视频和目标视频,这些视频共享相同的非像素对齐语义控制(例如概念、风格、运动、摄像机参数)。与结构控制设置不同,此类视频对无法通过直接应用视觉感知模型(例如SAM、Depth-Anything)进行标注。先前工作大多依赖为特定语义条件定制的少量手动收集视频,限制了统一模型的发展。为解决此问题,本文从互联网收集了2000张高质量参考图像,涵盖男性、女性、儿童、动物、物体、风景和多主体案例。随后,本文使用商业模型(VIDU和Kling)的图生视频视觉效果模板和社区LoRA,通过将每张图像与所有兼容模板(部分模板限制主体类别)匹配来创建配对视频。总体而言,本文获得了VAP-Data——一个包含超过10万个样本、覆盖100种语义条件的语义控制配对数据集,也是目前最大的资源(见前文和上图3)。为进行评估,本文从测试集的4个类别(概念、风格、运动、摄像机)中均匀采样了24种语义条件,每个条件包含2个样本。

与先前方法的比较

本文将VAP与以下方法进行比较:(1) 在多结构条件(例如原始参考视频、深度、光流)下的最先进结构控制视频生成方法VACE;(2) 条件特定方法:本文为每个语义条件训练一个LoRA——这是一种常被报道达到或超越任务特定模型性能的常见社区实践——并报告平均性能;(3) 最先进的闭源商业模型,包括Kling和Vidu。

定量比较。 对于最先进的结构控制方法VACE,该模型以视频和相同大小的掩码(指示编辑区域(1)与固定区域(0))为条件。遵循VACE的设置,本文使用参考视频、其深度图及其光流作为视频条件,并将掩码设置为1以使模型遵循而非复制它们。总体而言,VACE表现最差,这与将结构控制方法直接应用于语义控制生成的预期一致。这是因为VACE假设条件与输出之间存在像素级映射(例如视频与其深度图),这在语义控制下会失效,并从参考视频中复制不需要的外观或布局。随着控制条件从原始视频、深度图过渡到光流,外观细节减少,指标有所改善,证实了像素级先验不适用于语义控制生成。使用携带语义线索的标题驱动预训练DiT(CogVideoX-I2V)可产生不错的视频质量,但语义对齐度较弱,因为许多语义难以通过粗略文本表达。常见的LoRA微调通常通过对特定条件过拟合来获得强语义对齐度:这会损害基础质量(对比CogVideoX-I2V行),每个条件需要单独模型,且无法泛化到未见过的参考视频。相比之下,VAP在大多数指标上优于开源基线,达到与商业模型相当的性能,并首次为语义控制视频生成提供了统一模型。

用户研究。 本文进行了一项用户研究,随机选取20名视频生成研究人员来评估视频质量和语义对齐度。在每次测试中,评估者在观看语义控制参考视频后,比较不同方法的输出结果,并为(i)语义对齐度和(ii)整体质量选择更优的结果。本文在下表1中报告了偏好率——即所有比较中选择的归一化份额,总和为100%。VAP与Kling/Vidu(商业、闭源、任务特定)获得了总体最高的偏好率,而VAP是作为统一模型实现这一效果的。

图片

定性比较  在上图6中,VAP相较于结构控制基线、DiT主干网络和条件特定微调,产生了更好的时间一致性、视觉质量和语义一致性,并与条件特定商业模型Kling和Vidu表现相当。VACE的像素映射偏差将语义参考视频视为像素对齐,导致外观/布局复制(例如,青蛙像狗一样站立;自由女神像模仿绵羊);当参考视频被深度图取代,继而再被光流取代时,这种伪影会减弱,因为后者逐步移除了外观细节。LoRA微调改善了语义对齐度且没有复制伪影,但每个条件需要单独模型,并且缺乏零样本泛化能力。相比之下,VAP使用单一模型,将所有语义条件视为统一的参考视频提示,从而实现了统一的语义控制生成。

零样本生成 通过将所有语义条件视为统一的视频提示,VAP支持多样的语义控制生成任务;此外,当给定一个不属于VAP-Data的未见过的语义参考[47]时(见下图7),从视频即提示数据中学到的上下文能力使VAP能够执行由新参考引导的零样本生成。

图片

消融研究

上下文生成结构。  本文训练了4个VAP变体来测试本文采用的混合Transformer的有效性: A1. 单分支微调 :将预训练DiT的输入序列扩展为并对整个模型进行微调; A2. 单分支LoRA微调 :与A1相同,但冻结主干网络,仅训练LoRA层; A3. 单向交叉注意力 :冻结预训练DiT,添加一个具有相同权重的新分支,并通过逐层交叉注意力注入其特征; A4. 单向加法 :与A3相同,但通过残差加法注入特征。 本文在VAP-Data的同一基准上进行评估。上表2中的结果显示: A1. MoT通过保留基础DiT的生成能力,解决了灾难性遗忘问题,同时实现了即插即用的上下文控制,从而提升了性能。 A2. LoRA有助于保留主干网络的能力,但其有限的能力难以处理复杂的上下文生成,导致结果不理想。 A3. MoT中逐层的双向信息交换使得参考视频提示表示能够同步适应目标标记,从而改善了语义对齐度。 A4. 即使经过重新训练,残差加法方法依赖于僵硬的像素到像素映射,这与语义控制生成不匹配,导致性能下降。

位置编码设计。 为了验证本文时序偏置RoPE的有效性,本文评估了两个变体。 (1) :对参考视频和目标视频应用相同的RoPE,这强加了不切实际的像素级对齐先验,导致性能下降; (2) :除了引入时序偏置外,遵循上下文图像生成[66]的做法,本文通过将参考视频放置在目标视频左侧来增加宽度偏置。实验表明,这增加了空间参考的难度并导致性能下降。

可扩展性。 如可扩展性部分所示,随着训练数据的增长,VAP在所有指标上均有提升,显示出强大的可扩展性。这源于本文的统一设计——将参考视频视为提示而无需针对任务进行修改,以及MoT框架——在保留主干网络生成能力的同时实现即插即用的上下文生成。

DiT结构。  为了测试可迁移性,本文为Wan2.1-I2V-14B配备了参数量与CogVideoX-I2V-5B版本相当的VAP(均匀插入1/4的层;约50亿参数)。受益于Wan2.1更强的基础模型,该变体改善了动态程度和美学得分,但由于仅有1/4的上下文交互,其参考对齐度略差于CogVideoX上的VAP。 本文还对VAP的上下文专家Transformer层分布和视频提示表示进行了消融实验。

结论

Video-As-Prompt (VAP) 是一个统一的、语义控制的视频生成框架,它将参考视频视为提示,并通过混合Transformer专家实现即插即用的上下文控制。VAP克服了结构控制方法(例如,不适当的像素级先验)和任务/条件特定设计(例如,不可泛化的模型)的局限,提供了可扩展的语义控制和零样本泛化能力。本文构建了最大的语义控制视频生成数据集VAP-Data,并通过大量实验表明,VAP在开源模型中达到了最先进的水平,性能可与商业模型相媲美,并具有强大的泛化能力。

局限性与未来工作。 尽管性能强大,一些局限性仍需进一步研究:(1) 本文在大规模VAP-Data上进行了实验,但VAP-Data中的语义条件相对有限、合成且源自其他生成模型,这可能继承了源模板的特定风格偏差、伪影和概念局限性。本文将构建更大规模、真实的语义控制视频数据留待未来工作。(2) VAP使用参考视频、参考标题和目标标题来指导语义控制。为了贴近原始DiT的分布,本文采用标准视频描述作为标题;然而,不准确的语义描述或较大的主体不匹配会降低生成质量。指令式标题(例如,"请遵循参考视频中的吉卜力风格")可能更有效地捕捉预期语义并改善控制。

参考文献

[1] Video-As-Prompt: Unified Semantic Control for Video Generation

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码免费加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

视频生成的下一站?港中文&字节开源VAP :用视频作提示词,性能新SoTA,比肩天价商用

AI生成未来知识星球免费开放! 点击下方 卡片 ,关注" AI生成未来 " 👇扫码 免费加入 AI知识星球 ,如您有工作需要分享,欢迎联系: aigc_to_future 作者:Yuxuan Bian等 解读:AI生成未来 论文链接:https://ar...