AI I024: 美团复旦联合发布WBench 首个交互式视频世界模型权威基准 20个AI模型大乱斗无全能

美团LongCat团队与复旦大学联合开源WBench，首个交互式视频世界模型多轮评测基准。覆盖289个测试案例、1058轮交互，从视频质量、场景一致性、交互合规等5大维度22项指标量化评估。自动评分与人类偏好高度一致（相关系数≥0.94）。评测显示Kling 3.0、Wan、HY-World等20个模型各有短板，无一全能。适合AI研究者、开发者进行模型诊断与选型。

Tags:

AI世界模型

评测基准

美团复旦

多轮交互

开源基准

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

视频世界模型（Interactive Video World Model）正在爆发式增长—Kling、Wan、Genie、Happy Oyster……名字越来越多，但到底谁强谁弱？目前没有一个统一的标准来回答这个问题。

近日，美团 LongCat 团队联合复旦大学正式开源 WBench—国内首个、全球最全面的交互式世界模型多轮评测基准，直接补齐行业最大短板。

简单说：WBench = 世界模型的 “高考卷 + 体检报告”。而结论可以总结为一句话：没有任何一个模型能在所有维度上称王。

unsetunsetWBench是什么？unsetunset

WBench 包含 289 个测试案例、1058 轮交互，覆盖导航、动作、事件编辑、视角切换四大交互类型，从视频质量、场景一致性、交互合规、时序稳定、物理合理性 5 大维度，用 22 个人类验证指标完成量化评估。

总结来说，WBench不是让AI生成一段视频就完了，而是测它能不能"玩转"一个交互世界。达到这个目标则至少要做到五件事：

画面好看、稳定、不闪（渲染器）
不乱改场景、不乱变风格、不乱换主体（导演）
听得懂指令、走得准路线、做得出动作（控制器）
多轮交互不失忆、空间不乱、主体不变形（记忆系统）
符合物理、因果合理、不悬浮、不穿模（物理引擎）

WBench 直接将这五件事转化为可量化的指标，并实现与人类偏好高度一致的全自动化打分。WBench 是目前最接近真实应用场景、最公平、最可信的世界模型评测基准。

unsetunsetWBench 评测结果unsetunset

那么在WBench评测基准下目前市面上的各个模型表现如何呢？结论就是：没有一个模型在所有维度上都占据绝对优势。下面我们给大家举一些示例：

Kling 3.0 总分第一，但一致性拉垮；HY-Video 一致性文本模型中最强，但交互能力不行；Happy Oyster / HY-World 导航无敌，但视频质量偏低。
YUME 1.5 导航得分72.0（最高），但事件编辑只有57.8，视角切换更是只有16.7（接近垫底）。反过来，Wan 2.7 事件编辑84.0、角色动作83.4，导航却只有66.0。
基于摄像机控制的世界模型（如 InSpatio、LingBot 和 HY-World）能够实现较高的视角一致性和导航性能，但基于动作控制的模型（如 Genie 3、Happy Oyster 和 MatrixGame）在 perspective consistency 方面表现更佳。这两种控制范式是正交的。
视频质量更高的模型往往能产生更符合物理规律的输出（相关系数ρ=0.82），而控制能力（导航、交互）与物理评分的相关性接近于零，这表明物理规律的产生源于视觉保真度，而非对世界的理解。
导航精度从第一轮到第四轮下降了21个百分点，这是由于误差在各轮交互中不断累积所致。专用世界模型（HY-World）的性能下降幅度远小于基于文本的模型（Kling 3.0），这表明显式几何控制比基于文本的提示更能有效地保持空间状态。

unsetunset数据规模与可信度unsetunset

规模：289 个案例，4 种互动类型，6 个场景类别，5 种主体类型。

自动评分：经过人类偏好验证：对 400 名众包标注进行双盲对比测试，十个评测方面的 Spearman 相关系数均 ≥ 0.94，其中四项达到 1.00，证明自动打分指标和人类偏好在模型排序层面高度一致。

unsetunset评测结果unsetunset

视频画质、场景跟随、交互控制、物理逻辑…… 五大维度全面横评，不同架构模型的能力分化特征十分明显。

文本驱动模型在场景遵循、物理合理性上表现突出，相机与动作控制模型则更擅长导航任务，各类模型均存在明显能力偏向。视角切换是全行业共性难题。相机控制模型几何一致性优异，但动态场景下视角稳定性不足，运动强度与画面一致性呈负相关。整体来看，通用生成先验相比专项控制训练，更有助于模型还原真实物理规则。

你以为控制相机就能控制一切？不是的。控制相机和控制主体，是两条独立的路线。

相机驱动模型（InSpatio、LingBot、HY-World）→ 视角一致性强、导航强
动作驱动模型（Genie 3、Happy Oyster、MatrixGame）→ 视角切换更好
在适当的架构和训练选择下，开源系统在特定功能上可以达到甚至超越闭源系统。

unsetunset结论unsetunset

WBench 不只是评估视频的生成质量，它还能够评估世界模型是否能在多轮交互中持续维护一个可控、一致、符合物理逻辑的世界。

整体而言，WBench 为交互式世界模型领域搭建起一套完整、客观的评测体系。

对模型研究: WBench 等于提供了一个系统化的诊断工具，可以让人看清模型到底失败在哪个能力维度。
对模型开发: WBench 可用于定位模型训练短板，例如控制能力、长期记忆、主体一致性、物理因果、视角切换等。
对企业用户: WBench 则有助于在不同业务场景下做模型选型。

WBench 不止是一套评测工具，更是行业发展的“指南针”。研发、落地两大场景都能发挥重要作用。现阶段各类模型能力分化明显，短板问题突出，而基准本身也存在可优化方向。相信随着持续更新迭代，它会持续推动交互式世界模型走向更成熟、更标准化的新阶段。

unsetunset相关链接unsetunset

论文: https://huggingface.co/papers/2605.25874
主页: https://meituan-longcat.github.io/WBench
代码: https://github.com/meituan-longcat/WBench

权重：https://huggingface.co/meituan-longcat/WBench-weights
数据集: https://huggingface.co/datasets/meituan-longcat/WBench

AI I024

2026年6月2日星期二

美团复旦联合发布WBench 首个交互式视频世界模型权威基准 20个AI模型大乱斗无全能

Tags:

AI世界模型

评测基准

美团复旦

多轮交互

开源基准

unsetunsetWBench是什么？unsetunset

unsetunsetWBench 评测结果unsetunset

unsetunset数据规模与可信度unsetunset

unsetunset评测结果unsetunset

unsetunset结论unsetunset

unsetunset相关链接unsetunset

没有评论:

发表评论

免费AI视频生成工具seedance2。0mini无水印全能参考附微表情提示词

2026年6月2日星期二

美团复旦联合发布WBench 首个交互式视频世界模型权威基准 20个AI模型大乱斗无全能

Tags: AI世界模型 评测基准 美团复旦 多轮交互 开源基准

unsetunsetWBench是什么？unsetunset

unsetunsetWBench 评测结果unsetunset

unsetunset数据规模与可信度unsetunset

unsetunset评测结果unsetunset

unsetunset结论unsetunset

unsetunset相关链接unsetunset

没有评论:

发表评论

免费AI视频生成工具seedance2。0mini无水印全能参考附微表情提示词

Tags:

AI世界模型

评测基准

美团复旦

多轮交互

开源基准