2026年6月2日星期二

美团复旦联合发布WBench 首个交互式视频世界模型权威基准 20个AI模型大乱斗无全能

美团LongCat团队与复旦大学联合开源WBench,首个交互式视频世界模型多轮评测基准。覆盖289个测试案例、1058轮交互,从视频质量、场景一致性、交互合规等5大维度22项指标量化评估。自动评分与人类偏好高度一致(相关系数≥0.94)。评测显示Kling 3.0、Wan、HY-World等20个模型各有短板,无一全能。适合AI研究者、开发者进行模型诊断与选型。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

视频世界模型(Interactive Video World Model)正在爆发式增长—Kling、Wan、Genie、Happy Oyster……名字越来越多,但到底谁强谁弱?目前没有一个统一的标准来回答这个问题。

近日,美团 LongCat 团队联合复旦大学正式开源 WBench—国内首个、全球最全面的交互式世界模型多轮评测基准,直接补齐行业最大短板。

简单说:WBench = 世界模型的 “高考卷 + 体检报告”。而结论可以总结为一句话:没有任何一个模型能在所有维度上称王。

图片

unsetunsetWBench是什么?unsetunset

图片

WBench 包含 289 个测试案例、1058 轮交互,覆盖导航、动作、事件编辑、视角切换四大交互类型,从视频质量、场景一致性、交互合规、时序稳定、物理合理性 5 大维度,用 22 个人类验证指标完成量化评估。

总结来说,WBench不是让AI生成一段视频就完了,而是测它能不能"玩转"一个交互世界。达到这个目标则至少要做到五件事:

  • 画面好看、稳定、不闪(渲染器)
  • 不乱改场景、不乱变风格、不乱换主体(导演)
  • 听得懂指令、走得准路线、做得出动作(控制器)
  • 多轮交互不失忆、空间不乱、主体不变形(记忆系统)
  • 符合物理、因果合理、不悬浮、不穿模(物理引擎)

WBench 直接将这五件事转化为可量化的指标,并实现与人类偏好高度一致的全自动化打分。WBench 是目前最接近真实应用场景、最公平、最可信的世界模型评测基准。

unsetunsetWBench 评测结果unsetunset

那么在WBench评测基准下目前市面上的各个模型表现如何呢? 结论就是:没有一个模型在所有维度上都占据绝对优势。下面我们给大家举一些示例:

  1. Kling 3.0 总分第一,但一致性拉垮;HY-Video 一致性文本模型中最强,但交互能力不行;Happy Oyster / HY-World 导航无敌,但视频质量偏低。

  2. YUME 1.5 导航得分72.0(最高),但事件编辑只有57.8,视角切换更是只有16.7(接近垫底)。反过来,Wan 2.7 事件编辑84.0、角色动作83.4,导航却只有66.0。

  3. 基于摄像机控制的世界模型(如 InSpatio、LingBot 和 HY-World)能够实现较高的视角一致性和导航性能,但基于动作控制的模型(如 Genie 3、Happy Oyster 和 MatrixGame)在 perspective consistency 方面表现更佳。这两种控制范式是正交的。

  4. 视频质量更高的模型往往能产生更符合物理规律的输出(相关系数ρ=0.82),而控制能力(导航、交互)与物理评分的相关性接近于零,这表明物理规律的产生源于视觉保真度,而非对世界的理解。

  5. 导航精度从第一轮到第四轮下降了21个百分点,这是由于误差在各轮交互中不断累积所致。专用世界模型(HY-World)的性能下降幅度远小于基于文本的模型(Kling 3.0),这表明显式几何控制比基于文本的提示更能有效地保持空间状态。图片

unsetunset数据规模与可信度unsetunset

数据集示例
数据集示例
WBENCH 数据集在八个维度上的构成
WBENCH 数据集在八个维度上的构成
图片
  • 规模:289 个案例,4 种互动类型,6 个场景类别,5 种主体类型。
图片
  • 自动评分:经过人类偏好验证:对 400 名众包标注进行双盲对比测试,十个评测方面的 Spearman 相关系数均 ≥ 0.94,其中四项达到 1.00,证明自动打分指标和人类偏好在模型排序层面高度一致。

unsetunset评测结果unsetunset

视频画质、场景跟随、交互控制、物理逻辑…… 五大维度全面横评,不同架构模型的能力分化特征十分明显。

图片

文本驱动模型在场景遵循、物理合理性上表现突出,相机与动作控制模型则更擅长导航任务,各类模型均存在明显能力偏向。视角切换是全行业共性难题。相机控制模型几何一致性优异,但动态场景下视角稳定性不足,运动强度与画面一致性呈负相关。整体来看,通用生成先验相比专项控制训练,更有助于模型还原真实物理规则。

你以为控制相机就能控制一切?不是的。控制相机和控制主体,是两条独立的路线。

  • 相机驱动模型(InSpatio、LingBot、HY-World)→ 视角一致性强、导航强
  • 动作驱动模型(Genie 3、Happy Oyster、MatrixGame)→ 视角切换更好
  • 在适当的架构和训练选择下,开源系统在特定功能上可以达到甚至超越闭源系统。图片

unsetunset结论unsetunset

WBench 不只是评估视频的生成质量,它还能够评估世界模型是否能在多轮交互中持续维护一个可控、一致、符合物理逻辑的世界。

整体而言,WBench 为交互式世界模型领域搭建起一套完整、客观的评测体系。

  • 对模型研究:  WBench 等于提供了一个系统化的诊断工具,可以让人看清模型到底失败在哪个能力维度。

  • 对模型开发: WBench 可用于定位模型训练短板,例如控制能力、长期记忆、主体一致性、物理因果、视角切换等。

  • 对企业用户: WBench 则有助于在不同业务场景下做模型选型。

WBench 不止是一套评测工具,更是行业发展的“指南针”。研发、落地两大场景都能发挥重要作用。现阶段各类模型能力分化明显,短板问题突出,而基准本身也存在可优化方向。相信随着持续更新迭代,它会持续推动交互式世界模型走向更成熟、更标准化的新阶段。

unsetunset相关链接unsetunset

  • 论文https://huggingface.co/papers/2605.25874
  • 主页: https://meituan-longcat.github.io/WBench
  • 代码: https://github.com/meituan-longcat/WBench
  • 权重:https://huggingface.co/meituan-longcat/WBench-weights
  • 数据集: https://huggingface.co/datasets/meituan-longcat/WBench

没有评论:

发表评论

免费AI视频模型Omni支持增删改人物一致比Seedance2。0强

Omni是一款免费AI视频模型,支持视频元素的增加删除修改、超真实人物一致性角色、AI对话及带货短剧生成。无需复杂工作流,简单提示词即可替换背景或物品。适用AI视频创作者与营销人员,智能体目前可无限使用注意仅50初始积分。 Tags: AI视频模型 免费AI工具 视频编...