2025年11月24日星期一

告别文字想象!快手可灵团队开源VANS:实现从“语言描述”到“动态演示”跨越,多项SOTA

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Junhao Cheng等

解读:AI生成未来

图片论文链接:https://arxiv.org/pdf/2511.16669
项目链接:https://video-as-answer.github.io/
代码链接:https://github.com/KlingTeam/VANS

图片

亮点直击

  • 开创VNEP新范式:将下一代事件推理从文本描述推进到动态视频演示的新阶段。
  • 提出VANS框架及核心Joint-GRPO策略:通过强化学习与联合奖励机制协同优化视觉语言模型与视频扩散模型,生成兼具语义准确性和视觉连贯性的视频答案。
  • 构建VANS-Data-100K数据集:包含10万组(输入视频,问题,输出视频)三元组,为VNEP任务的模型训练与评估提供专门数据支撑。

总结速览

解决的问题

  • 模态局限:下一代事件预测任务长期依赖文本描述作为答案,无法利用视频"展示"的直观优势来传达复杂的物理世界信息。
  • 任务挑战:视频化的下一代事件预测任务要求模型同时具备多模态输入理解、指令条件推理以及生成视觉和语义一致的视频的能力,这对现有模型构成巨大挑战。
  • 协同困难:如何让视觉语言模型生成的描述既准确又易于可视化,同时让视频扩散模型生成的视频既能忠实于描述又能契合输入视觉上下文,二者难以有效协同。

提出的方案

  • 新任务范式:开创了视频化下一代事件预测任务,将答案模态从文本升级为动态视频。
  • 核心框架:提出了VANS模型,通过强化学习将视觉语言模型与视频扩散模型进行融合。
  • 关键算法:设计了联合分组相对策略优化作为VANS的核心训练策略,通过联合奖励协同优化两个模型。
  • 数据支撑:构建了VANS-Data-100K专用数据集,为模型训练与评估提供支持。

应用的技术

  • 视觉语言模型:用于理解多模态输入(视频和问题)并生成中间描述。
  • 视频扩散模型:用于根据视觉语言模型的描述和输入视觉语境生成视频。
  • 强化学习:特别是联合分组相对策略优化算法,用于对齐和协同优化视觉语言模型与视频扩散模型。
  • 共享奖励机制:驱动联合分组相对策略优化过程,确保两个模型为共同目标(生成高质量视频答案)而努力。

达到的效果

  • 突破性性能:在流程性与预测性基准测试上,VANS在视频事件预测与可视化两方面均实现了突破性(state-of-the-art)性能。
  • 高质量输出:生成的视频答案兼具语义忠实性(准确反映预测事件)和视觉连贯性(与输入上下文保持一致)。
  • 有效协同:通过联合分组相对策略优化,成功使视觉语言模型生成"易于可视化"的描述,并指导视频扩散模型生成"贴合描述与语境"的视频。

VANS-Data-100K

现有NEP数据集因视频质量欠佳和缺乏多样化指令性问题,无法直接适用于VNEP任务。为弥补这一空白,本文构建了VANS-Data-100K数据集,包含3万个流程性样本和7万个预测性样本。每个样本均包含输入视频、问题及多模态答案(文本与视频),专为VNEP任务定制。如下图3所示,本文的数据构建流程包含四个阶段。

图片

原始数据收集。 从两个不同来源收集数据以覆盖流程性与预测性场景:流程性数据采用COIN和YouCook2的高清视频以确保步骤演示的清晰度;预测性数据则采集自通用场景数据集和短片,这些资源富含叙事性与因果动态。

镜头分割。 将原始视频分割为连贯片段:流程性视频采用真实时间戳进行分割,预测性视频则使用镜头边界检测模型。本文过滤掉短于3秒的片段以确保动作完整性。

片段筛选。 采用Gemini-2.5-Flash作为自动质量过滤器筛选最优3-5秒片段:对于流程性数据,选择与给定字幕最匹配的片段;对于预测性数据,首先生成每个片段的详细字幕,确保所选片段兼具高质量与语义代表性。

问答对生成。 使用Gemini-2.5-Flash基于视频-字幕序列生成问答对。该VLM模拟多样化问题——聚焦流程性任务的逻辑下一步骤与预测性任务的假设性场景,同时生成思维链推理与真实答案,并通过自检机制确保逻辑严谨性且避免信息泄露。更多数据集细节见附录A。

VANS

下图4展示了VANS的整体架构。输入问题经令牌化后,与输入视频的高级ViT视觉特征共同输入VLM。本文要求VLM执行基于指令的推理,生成描述预测下一事件的文本字幕,作为VDM的语义引导。为确保视觉一致性,VDM同时以生成的字幕和低级视觉线索为条件——后者通过VAE对n个采样输入帧进行令牌化提取,随后将这些令牌拼接至VDM的条件潜在空间。该设计在生成新场景时能保持细粒度视觉对应关系。

图片

此架构存在根本性局限:VLM与VDM被独立优化。 VLM以文本准确性为训练目标,但未获知其描述是否能生成视觉合理视频的反馈;反之,VDM需协调两个条件信号(VLM的特定字幕与输入视觉上下文)。虽然SFT赋予VDM基础能力,但要实现语义准确性与视觉保真度的持续稳定表现仍需进一步优化。这种割裂导致语义-视觉鸿沟,使两个模型在互不知晓对方约束与能力的情况下运作。为此,本文提出Joint-GRPO将两个模型协调为VNEP的有机整体。

GRPO基础

GRPO是一种旨在将模型输出与人类偏好或复杂目标对齐的RL算法。其核心思想是通过奖励函数评估生成样本质量,进而调整模型策略以增加高奖励生成概率。对于每个输入上下文,策略模型生成一组条轨迹,每条轨迹获得反映其质量的奖励。GRPO计算归一化优势度以衡量各轨迹相对于组平均水平的优劣程度:

图片

策略模型随后通过以下GRPO目标函数进行优化:

图片

其中  表示第  条轨迹的概率比。剪切机制与KL散度项通过防止策略剧烈更新来确保训练稳定性。

联合GRPO

标准GRPO虽在单模型对齐中表现有效,但在VNEP等多模型场景中存在根本性局限:其以孤立方式优化模型。将其分别应用于VLM和VDM无法弥合语义-视觉鸿沟,因其未激励模型输出形成相互增强效应。反之,对两模型进行单阶段联合训练也存在问题:当生成视频质量较差时,该方法难以判别是VLM的字幕还是VDM的生成过程导致问题,易引发奖励破解与训练不稳定性,从而产生冲突的梯度信号。

为解决此归因问题并实现有效协同引导,提出联合GRPO。该方法通过结构化两阶段优化流程,利用联合奖励函数协调VLM与VDM。本文的核心洞见是:必须协同引导两个模型,使VLM的推理实现视觉接地以有效指导VDM,同时VDM的生成需保持对VLM预测与视觉语境的忠实性。

阶段1:可视化友好型VLM调优。  首先将VLM的推理与VDM的生成结果对齐。在保持VDM冻结状态下优化VLM策略。对于输入视频与问题,从采样个文本字幕,每个字幕由冻结的VDM生成对应视频。VLM的联合奖励计算公式为:

图片

其中  是各奖励项的权重系数,具体定义如下:

  •  确保输出符合指定指令格式:若响应遵循"先推理后回答"模板则奖励1分,否则为0。
  •  通过ROUGE-L衡量生成字幕与真实字幕的语义相似度。
  •  通过CLIP相似度评估生成视频与真实视频的视觉连贯性。

该复合奖励旨在引导VLM超越单纯的语言正确性。仅依赖会导致生成语言正确但视觉上不真实或VDM无法执行的字幕;反之,仅使用提供的奖励则过于间接模糊,无法有效指导VLM的推理过程。联合奖励引导VLM生成不仅语义准确、且视觉合理并可供VDM执行的字幕,此过程有效促使VLM内化VDM的能力与约束。

阶段2:上下文忠实型VDM适配。  基于阶段1获得的视觉接地字幕,本阶段通过调整VDM使其在保持输入视觉上下文一致性的同时,能忠实呈现这些字幕,从而解决跨模态对齐挑战。本文以冻结的VLM作为锚定模型优化VDM策略。如下图5所示,阶段1优化的"当前改进版"VLM生成候选锚定字幕(与真实值语义相似度过低的样本会被丢弃并重新生成以确保质量),所得语义接地字幕将作为VDM的条件输入。

图片

随后从采样个输出视频。VDM的核心任务是在语义内容引导下,通过动态关注并保留输入视频VAE令牌中的相关视觉元素(如身份ID、背景),生成符合要求的新场景。其奖励函数定义为:

图片

其中  为平衡系数,具体定义为:

  •  保持与输入视频的视觉质量及连贯性,使用与阶段1相同的度量标准。
  •  通过CLIPScore衡量输出视频与锚定字幕的语义一致性。

该联合奖励设计旨在解决跨模态对齐的核心挑战: 确保输出保持视觉合理性与连续性; 强制VDM严格遵循描述的事件,防止其忽略字幕内容而仅对输入视频进行重建或轻微修改。

通过这两阶段优化,VLM与VDM共同演进为协同工作的有机整体。各奖励组件的独特互补作用及训练奖励曲线详见附录B。

实验

本文通过实验评估VANS的有效性,并与前沿解决方案进行对比。

实验设置

基准测试。 本文从数据集中采样400个流程性样本和400个预测性样本构建评估基准,其源视频来自成熟基准数据集,如[2,8,51,54]等,以确保可靠的真实文本与视频答案。评估集与训练数据严格分离,不存在视频或问题重叠。

评估指标。 遵循[16]的研究,本文采用BELU@1/2/3/4和ROUGE-L 评估文本预测质量。对于视频,本文使用弗雷歇视频距离(FVD)、CLIP视频分数(CLIP-V)↑和CLIP文本分数(CLIP-T)来评估视觉质量与语义对齐度。

基线模型。 由于现有方法均非为VNEP设计,本文通过适配相关领域的顶尖模型建立基线,包括:(1) 视频扩展模型Video-GPT;(2) 由顶尖VLM(Gemini-2.5-Flash、Qwen-2.5-VL-3B及其NEP微调版TEMPURA)与VDM(Wan-2.1-1.3B、FilmWeaver)组合的级联流程;(3) 统一模型Omni-Video。

实现细节。 本文采用Qwen2.5-VL-3B作为VLM、Wan-2.1-1.3B作为VDM初始化VANS。对于Video-GPT,本文提供输入视频并利用其原生视频延续能力。对于VANS及其他基线方法,本文提供输入视频及对应问题以执行NVEP。

主要结果

定量比较。 下表1显示VANS在所有基线模型中表现优异。在流程性基准测试中,VANS(联合GRPO)获得0.3631的ROUGE-L分数和0.8021的CLIP-V分数,超越最强级联基线(Gemini-FilmWeaver组合的0.2802和0.7102)与统一模型(Omni-Video的0.1075和0.6293)。更重要的是,联合GRPO相较SFT版本带来显著提升(如ROUGE-L从0.2812升至0.3631,CLIP-V从0.7655升至0.8021),证明了本文联合GRPO策略的有效性。视频扩展模型Video-GPT因未进行事件推理直接生成帧,获得最低CLIP-T分数(0.1997)。

图片

定性比较。 如下图6所示,基线模型常在事件预测或视觉一致性方面出现错误:例如Omni-Video将争吵误解为打斗并生成偏离输入特征的角色;经SFT的VANS虽推理能力提升,但仍存在两个关键局限——组件级错误(如案例1中VLM幻象生成"inreview"等不存在文本)和语义-视觉错位(案例2中指令"添加奶酪"导致倾倒动作而非真实"撒粉"动作)。采用联合GRPO的VANS则通过精准字幕"sprinkle cheese"及其符合"撒粉"动作的可视化呈现,增强了各组件能力并实现语义-视觉对齐。

图片

消融实验

本文通过消融研究验证联合GRPO的设计,结果呈现在下表2与下图7中。

图片
图片

联合优化 vs 孤立优化。 联合GRPO优于仅对VLM或VDM单独应用GRPO的变体,也优于简单级联独立优化版本的方案。这证实了联合优化对生成连贯字幕-视频的必要性,其中VLM与VDM通过协同适配弥合了语义-视觉鸿沟。

分阶段训练效果。 两阶段设计被证明至关重要:仅使用阶段1会导致字幕和视频出现语义偏离,而一体化变体则因奖励模糊性引发优化不稳定——难以判断低奖励源于VLM的字幕还是VDM的视频生成。

奖励组件分析。 进一步消融测试验证了各奖励组件的贡献:在阶段1中,移除文本保真奖励会降低字幕准确性(如未能预测"移除面具"),移除视频保真奖励则会损害视觉一致性;在阶段2中,移除语义对齐奖励会导致静态帧的奖励破解现象,移除视频保真奖励则会降低输出连贯性。这些发现验证了本文采用分阶段优化与平衡奖励组件的完整设计。

结论

本研究开创了视频化下一代事件预测新任务,将下一代事件推理从文本描述推进至动态视频演示。为解决其独特挑战,本文提出通过联合GRPO(一种在联合奖励下协调双模型的两阶段RL策略)融合VLM与VDM的VANS框架,并构建VANS-Data-100K数据集为此任务提供重要训练与评估基础。在成熟基准测试上的实验表明,VANS在事件预测准确性与视频生成质量两方面均达到最先进水平。

参考文献

[1] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

用Nano Banana Pro生成萌宠写真,用一张宠物的照片,结合提示词,就能生成各种宠物写真

AI应用帮,帮你用AI 公众号:AI应用帮 「   文中提供创作入口   」 ▼ Nano Banana Pro凭借其强大的‌ 一致性能力 ‌,成为生成宠物写真的理想工具。这一能力确保在多张写真中保持宠物的‌ 特征稳定 ‌(如毛色、五官)和‌ 风格统一 ‌,避免传统AI生成中...