美团LongCat团队与复旦大学联合开源WBench,首个交互式视频世界模型多轮评测基准。覆盖289个测试案例、1058轮交互,从视频质量、场景一致性、交互合规等5大维度22项指标量化评估。自动评分与人类偏好高度一致(相关系数≥0.94)。评测显示Kling 3.0、Wan、HY-World等20个模型各有短板,无一全能。适合AI研究者、开发者进行模型诊断与选型。
Tags:
视频世界模型(Interactive Video World Model)正在爆发式增长—Kling、Wan、Genie、Happy Oyster……名字越来越多,但到底谁强谁弱?目前没有一个统一的标准来回答这个问题。
近日,美团 LongCat 团队联合复旦大学正式开源 WBench—国内首个、全球最全面的交互式世界模型多轮评测基准,直接补齐行业最大短板。
简单说:WBench = 世界模型的 “高考卷 + 体检报告”。而结论可以总结为一句话:没有任何一个模型能在所有维度上称王。
WBench是什么?
WBench 包含 289 个测试案例、1058 轮交互,覆盖导航、动作、事件编辑、视角切换四大交互类型,从视频质量、场景一致性、交互合规、时序稳定、物理合理性 5 大维度,用 22 个人类验证指标完成量化评估。
总结来说,WBench不是让AI生成一段视频就完了,而是测它能不能"玩转"一个交互世界。达到这个目标则至少要做到五件事:
画面好看、稳定、不闪(渲染器) 不乱改场景、不乱变风格、不乱换主体(导演) 听得懂指令、走得准路线、做得出动作(控制器) 多轮交互不失忆、空间不乱、主体不变形(记忆系统) 符合物理、因果合理、不悬浮、不穿模(物理引擎)
WBench 直接将这五件事转化为可量化的指标,并实现与人类偏好高度一致的全自动化打分。WBench 是目前最接近真实应用场景、最公平、最可信的世界模型评测基准。
WBench 评测结果
那么在WBench评测基准下目前市面上的各个模型表现如何呢? 结论就是:没有一个模型在所有维度上都占据绝对优势。下面我们给大家举一些示例:
Kling 3.0 总分第一,但一致性拉垮;HY-Video 一致性文本模型中最强,但交互能力不行;Happy Oyster / HY-World 导航无敌,但视频质量偏低。
YUME 1.5 导航得分72.0(最高),但事件编辑只有57.8,视角切换更是只有16.7(接近垫底)。反过来,Wan 2.7 事件编辑84.0、角色动作83.4,导航却只有66.0。
基于摄像机控制的世界模型(如 InSpatio、LingBot 和 HY-World)能够实现较高的视角一致性和导航性能,但基于动作控制的模型(如 Genie 3、Happy Oyster 和 MatrixGame)在 perspective consistency 方面表现更佳。这两种控制范式是正交的。
视频质量更高的模型往往能产生更符合物理规律的输出(相关系数ρ=0.82),而控制能力(导航、交互)与物理评分的相关性接近于零,这表明物理规律的产生源于视觉保真度,而非对世界的理解。
导航精度从第一轮到第四轮下降了21个百分点,这是由于误差在各轮交互中不断累积所致。专用世界模型(HY-World)的性能下降幅度远小于基于文本的模型(Kling 3.0),这表明显式几何控制比基于文本的提示更能有效地保持空间状态。
数据规模与可信度
规模:289 个案例,4 种互动类型,6 个场景类别,5 种主体类型。
自动评分:经过人类偏好验证:对 400 名众包标注进行双盲对比测试,十个评测方面的 Spearman 相关系数均 ≥ 0.94,其中四项达到 1.00,证明自动打分指标和人类偏好在模型排序层面高度一致。
评测结果
视频画质、场景跟随、交互控制、物理逻辑…… 五大维度全面横评,不同架构模型的能力分化特征十分明显。
文本驱动模型在场景遵循、物理合理性上表现突出,相机与动作控制模型则更擅长导航任务,各类模型均存在明显能力偏向。视角切换是全行业共性难题。相机控制模型几何一致性优异,但动态场景下视角稳定性不足,运动强度与画面一致性呈负相关。整体来看,通用生成先验相比专项控制训练,更有助于模型还原真实物理规则。
你以为控制相机就能控制一切?不是的。控制相机和控制主体,是两条独立的路线。
相机驱动模型(InSpatio、LingBot、HY-World)→ 视角一致性强、导航强 动作驱动模型(Genie 3、Happy Oyster、MatrixGame)→ 视角切换更好 在适当的架构和训练选择下,开源系统在特定功能上可以达到甚至超越闭源系统。
结论
WBench 不只是评估视频的生成质量,它还能够评估世界模型是否能在多轮交互中持续维护一个可控、一致、符合物理逻辑的世界。
整体而言,WBench 为交互式世界模型领域搭建起一套完整、客观的评测体系。
对模型研究: WBench 等于提供了一个系统化的诊断工具,可以让人看清模型到底失败在哪个能力维度。
对模型开发: WBench 可用于定位模型训练短板,例如控制能力、长期记忆、主体一致性、物理因果、视角切换等。
对企业用户: WBench 则有助于在不同业务场景下做模型选型。
WBench 不止是一套评测工具,更是行业发展的“指南针”。研发、落地两大场景都能发挥重要作用。现阶段各类模型能力分化明显,短板问题突出,而基准本身也存在可优化方向。相信随着持续更新迭代,它会持续推动交互式世界模型走向更成熟、更标准化的新阶段。
相关链接
论文: https://huggingface.co/papers/2605.25874 主页: https://meituan-longcat.github.io/WBench 代码: https://github.com/meituan-longcat/WBench
权重:https://huggingface.co/meituan-longcat/WBench-weights 数据集: https://huggingface.co/datasets/meituan-longcat/WBench
没有评论:
发表评论