2025年11月14日星期五

视频模型在真推理还是“演”推理?港中文等提出新基准拷问 :Chain-of-Frame到底是真是假?

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Ziyu Guo等

解读:AI生成未来
图片

论文链接:https://arxiv.org/pdf/2510.26802v1
项目主页:https://video-cof.github.io/

引言

近年来,以 Veo、Sora 等为代表的视频生成模型展现出惊人的生成能力,能够合成高度逼真、时间连续的动态画面。这些进展暗示,模型在视觉内容生成之外,或许已开始具备对物理世界结构与规律的潜在理解。

值得注意的是,Google 最新研究指出,诸如 Veo-3 等模型正在显现出超越纯粹生成的"涌现能力",例如感知建模、动态预测以及推理能力。

由此催生出一个与语言模型"思维链"(Chain-of-Thought, CoT)相对应的新概念——帧链推理(Chain-of-Frame, CoF)。

其核心思想在于:视频模型通过逐帧生成过程,构建连贯的视觉演化,从而体现思维与推理的过程。然而,一个关键问题仍悬而未决——这些模型是否真的具备零样本推理(Zero-Shot Reasoning)能力?还是仅仅在模仿训练数据中的表层模式?

为验证这一点,来自香港中文大学、北京大学、东北大学等机构的研究团队开展了系统研究,对 Veo-3 等模型的零样本推理潜能进行全面评估,并提出了涵盖空间、几何、物理、时间等 12 个维度的综合基准——MME-CoF。

图片

什么是 Chain-of-Frame(CoF)?

"帧链推理(CoF)"可以视作语言中"思维链"(CoT)的视觉化形式:

  • CoT:通过逐步生成文本展示思考与推理路径。
  • CoF:通过逐帧生成画面,以动态演化的方式呈现推理与决策过程。

这种方式使模型不仅输出结果,更在生成的时间维度上"展示"其思考轨迹。

12 项推理挑战概览

研究团队围绕 12 个推理维度构建了系统测试,对 Veo-3 模型进行了实证评估。以下为部分典型任务摘要。

视觉细节推理(Visual Detail Reasoning)

图片
  • 目标:检测模型保持细粒度视觉属性(颜色、纹理)与空间关系的能力。
  • 表现:对显著、易识别物体表现较好。
  • 局限:当目标较小、被遮挡或背景复杂时,模型易偏离任务目标或生成风格化偏差。

视觉追踪推理(Visual Trace Reasoning)

图片
  • 目标:评估模型在动作序列中维持因果连续性的能力。
  • 表现:在简单任务中能生成连贯的短时序路径。
  • 局限:长时序或高逻辑依赖任务中,模型难以保持连贯因果关系。

物理推理(Physics-based Reasoning)

图片
  • 目标:测试模型是否理解重力、碰撞、摩擦等物理规律。
  • 表现:能生成短期合理的动态画面。
  • 局限:经常违反物理约束(如能量守恒),仅在"模仿"物理而非真正推理。

真实世界空间推理(Real-World Spatial Reasoning)

图片
  • 目标: 测试模型在视角变化下保持空间一致性的能力。
  • 表现: 简单场景中能维持基本的方向与空间结构。
  • 局限: 在复杂多视角任务中常出现空间错位或漂移。

3D 几何推理(3D Geometry Reasoning)

图片
  • 目标: 评估模型在立体折叠、旋转与重构任务中的结构理解。
  • 表现: 在单步操作中具备一定三维感知。
  • 局限: 复杂组合变换时易崩坏,缺乏稳定几何一致性。

2D 几何推理(2D Geometry Reasoning)

图片
  • 目标: 检验模型在平面构图与形状关系中的精确度。
  • 表现: 能识别并绘制基础几何关系。
  • 局限: 更倾向生成"好看"的图形而非"正确"的几何,易出现逻辑顺序错误。

其他六个推理维度概览

除上述6项外,其余6个维度同样揭示了 Veo-3 的限制:

  • 旋转推理(Rotation Reasoning):小角度旋转可近似实现,大角度下结构崩坏。
  • 图表推理(Table & Chart Reasoning):可模仿局部视觉模式,但缺乏对数值关系的真实理解。
  • 物体计数(Object Counting Reasoning):在静态场景下表现良好,但动态环境中常出现漏数或重复。
  • GUI 推理(GUI Reasoning):能生成点击或拖动动作,但对操作目的与逻辑缺乏认知。
  • 具身推理(Embodied Reasoning):能识别物体位置与动作,但不遵守环境规则,偶有"作弊式"生成。
  • 医学推理(Medical Reasoning):在放大或观察局部细节时具备表面能力,但无法保持影像逻辑一致,易出现结构性错误。

MME-CoF:首个视频推理基准

研究团队据此提出 MME-CoF,这是首个专门用于量化视频模型推理能力的标准化评测体系。其主要特征包括:

  • 首个系统化视频推理评估框架;
  • 覆盖 12 个维度;
  • 将抽象的推理过程转化为视频生成挑战,以迫使模型在视觉上展示"帧链思考"。
图片

基于 MME-CoF 基准,研究团队对多个主流模型进行了量化评测(由 Gemini-2.5-Pro 评分,满分 4 分)。结果显示:

  • 整体表现较低:多数模型平均得分不足 2 分,推理能力仍有限。
  • 优势差异显著:
    • Sora-2 在物理、具身与医学推理中表现相对突出;
    • Veo-3 在真实空间推理上具优势;
    • Seedance-1.0-Pro 在旋转与三维几何任务中略胜一筹。
  • 总体趋势:各模型均在特定方向具备偏好性,但仍停留在"模式重现"层面,尚未形成真正的逻辑推理能力。
图片
图片

结论:推理,还是表演?

通过对 Veo-3 等模型的实证分析,研究团队得出如下结论:

  • 缺乏真正的零样本推理:当前视频模型更多依赖数据模式,而非自主逻辑推演。
  • 生成强 ≠ 推理强:高质量的画面并不代表深层理解。
  • 注重表象,忽视因果:生成结果"看似合理",但常违背逻辑或物理规律。
  • 视频模型可作为视觉推理系统的重要模块,与语言或逻辑模型结合,推动多模态智能迈向真正的"通用理解"。

总体来看,本研究为学术界构建了一个系统且可验证的实证评估框架,清晰揭示了视频生成模型在从"内容生成"迈向"逻辑推理",并迈向真正"通用视觉智能"过程中仍需跨越的核心瓶颈。

参考文献

[1] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

技术交流社区免费开放

这是一个👉️免费👈️的高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码免费加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

新AI复利工程:如何让AI越用越智能,成为你的专属资产

**** 本文提出"复利工程"这一核心概念,强调通过持续沉淀每次使用AI解决问题的经验,将其结构化积累为个人专属知识库。这能提升AI使用效率和答案质量,并实现跨领域能力迁移。文章剖析了"用完即走"的常见误区及障碍,并给出了具体实践方法:筛选...