2025年8月21日星期四

键鼠操控未来!DiT模型秒变“世界模型”,昆仑万维Matrix-Game 2。0开源打造无限可能的虚拟世界!

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

作者:Xianglong He等

解读:AI生成未来

图片论文链接:https://arxiv.org/pdf/2508.13009
项目链接:https://matrix-game-v2.github.io/

亮点直击

  • Matrix-Game 2.0 ——一个专为实现实时性能与稳健泛化能力而设计的新型框架。其技术核心是一个集成动作控制模块的视频扩散 Transformer,并通过 Self-Forcing 技术蒸馏为一个因果性、少步长的自回归模型。该架构结合高效的 KV 缓存机制,支持训练与推理,在单张 H100 GPU 上实现 25 帧/秒 的生成速度,同时在超出训练分布的复杂野外场景中保持分钟级的时间一致性与精确的动作可控性。
  • 模型的强泛化能力得益于本文提出的另一项创新:一个全面的数据生成流程,专门解决交互式训练数据的根本瓶颈。该流程基于 Unreal Engine,包含基于导航网格的路径规划系统以提升数据多样性,以及用于摄像机精确控制的四元数精度优化模块。此外,在 Grand Theft Auto V(GTA5)环境中,开发了一个基于Script Hook的数据记录系统,能够同步采集视觉内容与对应的用户交互。上述组件共同生成了具有帧级标注的大规模数据集,满足两个关键需求:(1)视觉内容与控制信号之间的精确对齐;(2)动态游戏内交互的有效建模。
  • 通过同时解决效率与可控性问题,Matrix-Game 2.0 在世界建模方面迈出了重要一步,提出了一个专为实时仿真与交互设计的高效框架。

实时交互生成结果

图片
图片
图片
图片

总结速览

解决的问题

  1. 实时性能不足:现有交互式世界模型依赖双向注意力机制和长推理路径,导致延迟高,难以实现实时响应。
  2. 误差累积严重:自回归视频扩散模型在长序列生成中误差不断积累,视频质量随时间下降。
  3. 数据瓶颈突出:缺乏大规模、高质量、精确标注的交互式视频数据集,限制了模型训练与泛化能力。
  4. 计算资源开销大:生成长视频需频繁去噪迭代,计算与内存开销随帧数增加呈二次增长,难以部署于流式交互场景。

提出的方案

  1. Matrix-Game 2.0 框架:一个专为实时交互视频生成设计的世界模型,采用少步长自回归扩散机制,支持分钟级长视频生成。
  2. 三大核心组件
    • 可扩展的数据生成流程:基于 Unreal Engine 和 GTA5,自动生成 ∼1200 小时高质量、帧级标注的视频数据;
    • 动作注入模块:将鼠标与键盘输入作为帧级控制条件注入生成过程;
    • 少步长因果蒸馏机制:将原始扩散模型蒸馏为高效的因果结构,提升推理速度与稳定性。
  3. Self-Forcing 蒸馏技术:引导模型自监督学习因果生成路径,减少误差累积。
  4. KV 缓存机制:提升生成效率,支持长序列视频的快速推理。

应用的技术

  1. 视频扩散 Transformer 架构:结合动作控制与图像生成能力,适配交互式视频任务。
  2. 因果性自回归生成机制:通过少步长推理实现流式视频生成,支持实时交互。
  3. 高效数据生成系统
    • Unreal Engine 场景下使用导航网格和四元数控制提升交互多样性与精度;
    • GTA5 场景中通过 Script Hook 工具实现视觉与控制信号的同步采集。
  4. 帧级动作注入与控制建模:实现用户输入与视频帧的精准对齐,提升动作可控性。

达到的效果

  1. 高帧率生成:在单张 H100 GPU 上实现 25 FPS 的实时生成速度。
  2. 长时间一致性:支持分钟级视频生成,保持时间一致性与动作响应的稳定性。
  3. 强泛化能力:在超出训练分布的复杂野外场景中表现稳健,具备良好的现实适应性。
  4. 开源共享:公开模型权重与代码库,推动交互式世界建模领域研究发展。
图片

数据 Pipeline 开发

本文设计并实现了全面的数据生成pipeline,以支持 Matrix-Game 2.0 的大规模训练。具体而言,本文的工作解决了两个关键挑战:

  • 生成与键盘和摄像机信号标注精确对齐的游戏视频数据;
  • 引入基于碰撞感知导航规则和强化学习训练智能体的交互式视频采集机制,以更好地建模游戏中的动态交互行为。

为了实现实际部署,本文开发并整理了一个多样化的数据生成pipeline,涵盖来自 Unreal Engine 和 GTA5 模拟环境的静态与动态场景。

基于 Unreal Engine 的数据生成

高性能交互视频生成模型的开发需要大规模数据集,这些数据集应包含视觉内容与控制信号(如精确对齐的键盘输入和摄像机参数)之间的精确同步。现有数据集通常缺乏游戏画面与对应输入之间的准确时间对齐,而本文基于 Unreal Engine 的pipeline通过受控的合成数据生成系统性地解决了这一问题。Unreal Engine 提供的精确环境控制与确定性渲染使其特别适合用于创建具有标注准确性保障的可扩展多模态训练数据。

如下图 3 所示,基于 Unreal Engine 的数据pipeline以导航网格和 3D 场景为输入。系统随后使用自动化的移动与摄像机控制模块模拟智能体的导航行为和动态视角切换。最终生成的视觉数据及其对应的动作标注通过集成的 MP4 编码器与 CSV 生成器进行记录与导出。

图片

本文系统的关键创新包括:

(1)基于导航网格的路径规划模块,用于生成多样化的轨迹;
(2)精确的系统输入与摄像机控制机制,以确保动作与视角的准确对齐;
(3)结构化的后处理pipeline,用于高质量的数据整理。

以下是对每个组件的详细描述。

基于导航网格的路径规划系统 为了增强生成训练数据的真实感与行为多样性,开发了一个基于导航网格的高级路径规划系统,支持非玩家角色(NPC)的动态与自适应移动。该系统支持实时、确定性的路径规划,这是生成可复现且高保真训练数据的关键要求。

本文实现基于 Unreal Engine 原生的 NavMesh 基础设施,并在此基础上进行了路径规划优化,使平均查询延迟降低至小于 2 毫秒。此外,系统在智能体行为中引入了受控的随机性,允许在严格遵守逻辑导航约束的同时,展现出多样化且上下文一致的移动模式。这一方法通过引入真实的智能体交互动态与移动轨迹,显著提升了训练语料的丰富性,从而增强了下游视频生成模型的泛化能力。下图 4 展示了一个导航示例,图中的绿色区域表示智能体可自由移动的区域,防止其撞墙或被卡住。

图片

强化学习增强的智能体训练 为了进一步提升数据采集智能体的行为真实感与决策能力,本文在基于碰撞的导航规则基础上集成了强化学习(RL)框架,采用典型的 RL 方法,如 Proximal Policy Optimization (PPO)。RL 智能体的训练使用以下奖励函数:

图片其中, 用于惩罚碰撞事件, 用于奖励新区域的探索, 用于鼓励多样化的移动模式。基于碰撞的规则在训练过程中作为安全约束,确保强化学习智能体在学习最优导航策略的同时保持物理上的合理性。

这种混合方法结合了基于规则的碰撞规避的确定性安全性与强化学习行为的自适应智能性,从而使智能体在保持数据采集可靠性的同时,能够生成更真实和多样化的交互模式。

精确输入与摄像机控制。集成了 Unreal Engine 的 Enhanced Input 系统,以实现毫秒级精度的多键盘输入同时采集。该系统维护一个与渲染帧同步的输入事件缓冲区,以确保训练过程中的输入与视觉内容的精确对齐:

图片

其中每个输入状态  表示与第  帧对齐的特定按键按下或释放事件。
为了消除在相机旋转计算中出现的  的关键误差率,本文通过在中间计算中使用双精度运算实现了四元数精度优化。该优化将旋转误差降低到几乎可以忽略的水平。

数据整理。 开发了一种基于 OpenCV 的视频帧过滤算法,用于检测并去除时间上冗余的帧,从而提升数据效率。进一步引入了一种基于速度的验证机制,用于识别并排除具有零或负速度的无效样本,这些样本通常表示静止或物理上不合理的运动状态:

图片

其中  表示速度向量, 是一个用于补偿浮点精度的小正数阈值。该判据确保仅保留语义上有意义的运动数据用于后续模型训练。

多线程pipeline加速。数据处理pipeline被重新设计以支持多线程执行,使得在单张 RTX 3090 GPU 上实现双流数据生成。系统采用独立的渲染线程与共享内存池相结合,以实现资源的高效利用。一些代表性的轨迹示例如下图 5 所示,绿色线段表示智能体的路径。在复杂场景中,也可以规划出合理路径。

图片

GTA5 交互式数据采集系统

为了便于获取丰富的交互式动态场景,在 GTA5 中开发了一个完整的录制系统,采用 Script Hook 集成方式,实现了视觉内容与对应用户操作的同步采集。

使用 Script Hook V 实现了一个自定义插件架构,在 GTA5 环境中建立了录制pipeline。该插件可同时捕捉鼠标与键盘操作,并实现帧级同步。每条采集数据包含 RGB 帧及对应的鼠标和键盘操作。

如下图 6 所示,本文的系统由三个主要组件组成:智能体行为模块、GTA V 游戏环境和录制系统。智能体行为模块包括自主导航、NPC 交互和载具交互能力,这些功能通过自定义的 C# 修改集成进 GTA V 游戏中。游戏将行为数据以 JSON 格式导出至录制系统,该系统使用 OBS Studio 进行视频采集(MP4 编码),并通过数据采集器生成 CSV 文件。一套同步机制确保视频帧与行为数据的时间对齐,最终输出同步的视频文件(.mp4)与行为数据集(.csv)。动态控制机制(包括自主导航、NPC 交互和载具交互)可选择性启用,以从第一人称或第三人称视角生成交互场景。环境参数如载具密度、NPC 数量、天气模式和时间设置均可调节,以模拟多样化的动态场景,增强所采集数据的多样性与真实感。具体而言,载具密度参数可配置范围为 ,而 NPC 密度参数范围为 

图片

为在载具导航模拟过程中获得最佳视角,系统通过逐帧位置更新实现精确的摄像机对齐,在整个模拟过程中保持相对于载具的最佳一致视角。

图片基于车辆动力学,系统推断并记录相应的键盘输入,从而生成包含速度、加速度和转向角在内的完整且时间对齐的交互数据。

此外,开发了一个运行时系统,用于动态访问导航网格信息,以支持智能摄像机定位与运动预测。该系统对导航网格数据结构进行查询,以提取空间约束与可通行路径,从而实现摄像机轨迹的最优规划。导航网格查询过程包括实时空间数据检索与路径验证,以确保摄像机运动限制在可通行区域内,同时保持最佳视角以实现高效数据采集。

定量数据评估

本文通过数据筛选pipeline收集了超过 120 万段视频片段,在多个关键指标上表现出强健性能。数据总体准确率超过 99%,摄像机旋转精度提升了 50 倍。此外,该pipeline支持每张 GPU 同时运行两路数据流,有效地将生产效率提高了一倍。下图 7 展示了一个代表性的轨迹示例。GTA5 的游戏环境复杂多样,图中的线条表示智能体的运动路径。本文可以规划合理路径,以避免智能体发生碰撞或阻塞,从而有效提升数据的准确性。

图片

方法

本节介绍 Matrix-Game 2.0 的整体架构与关键组件。首先,本文使用多样化的数据集训练基础模型。随后,介绍了本文将该基础模型转化为少步长自回归扩散模型的蒸馏方法,从而在保持视觉质量的同时实现长视频序列的实时生成。

基础模型架构

本文提出了 Matrix-Game 2.0,这是一个面向视觉驱动世界建模的新框架,探索无需语言描述即可理解与生成世界的智能能力。在当代研究中,文本引导已成为控制的主导模态——例如 SORA、HunyuanVideo 和 Wan,均依赖文本描述进行生成。然而,这类方法往往引入语义先验,使生成过程偏向语言推理而非物理规律,从而削弱模型对视觉世界基本属性的理解能力。

相比之下,Matrix-Game 2.0 完全去除语言输入,专注于从图像中学习空间结构与动态模式。这种去语义化建模方法的灵感来源于"空间智能"概念,强调模型能力应源于对视觉与物理规律的直觉理解,而非抽象语义支架。

如下图 8(a) 所示,Matrix-Game 2.0 以单张参考图像与相应动作为输入,生成物理合理的视频。首先使用 3D Causal VAE 对原始视频数据在空间与时间维度上进行压缩——空间压缩因子为 ,时间压缩因子为 ——以提升训练效率与建模能力。图像输入由 3D VAE 编码器与 CLIP 图像编码器编码,作为条件输入。在用户提供的动作引导下,Diffusion Transformer(DiT)生成视觉 token 序列,随后通过 3D VAE 解码器解码为视频。

图片

为了实现用户与生成内容之间的交互,Matrix-Game 2.0 引入了动作模块,以实现可控的视频生成。受 GameFactory 和 Matrix-Game 控制设计范式的启发,本文将帧级动作信号嵌入 DiT 模块中,如上图 8(b) 所示。注入的动作信号分为两类:通过键盘输入的离散移动动作,以及通过鼠标移动实现的连续视角动作。具体而言,连续鼠标动作会直接拼接到输入的潜在表示中,经过一个 MLP 层后传入时间自注意力层。此外,键盘动作通过融合特征在交叉注意力层中被查询,从而实现精确的交互可控性。不同于 Matrix-Game,本文采用旋转位置编码(Rotary Positional Encoding, RoPE)替代添加到键盘输入上的正余弦嵌入,以支持长视频生成。

实时交互式自回归视频生成

不同于采用全序列扩散模型、仅支持固定长度生成的 Matrix-Game,本文开发了一种用于实时长视频合成的自回归扩散模型。本文的方法通过 Self-Forcing 将双向基础模型转化为高效的自回归变体,该方法通过将每一帧条件于之前自生成的输出,而非真实标签,从而解决了暴露偏差问题。这显著减少了教师强制(Teacher Forcing)或扩散强制(Diffusion Forcing)方法中常见的误差累积问题。

蒸馏过程包括两个关键阶段:学生模型初始化和基于 DMD 的 Self-Forcing 训练。本文首先使用基础模型的权重初始化学生生成器 ,然后构建一个由 ODE 轨迹组成的数据集 ,其中  从区间  的 3 步子集采样。在训练过程中,本文在每一注意力层中对 key 和 value 应用块级因果掩码。如下图 9 所示,本文首先从 ODE 轨迹中采样一个包含  帧的噪声输入序列,并将其划分为  个具有独立时间步的子块 。学生生成器以相应动作为输入,并通过去噪输出与干净输出之间的回归损失进行反向传播:

图片
图片

随后进行的 DMD 阶段(下图 10)通过 Self-Forcing 将学生模型的分布  与教师模型的先验分布  对齐。关键在于,生成器从其自身的分布中采样先前帧,而不是使用真实训练数据,从而缓解训练-推理差距并减少由此引起的误差累积。

图片

KV 缓存机制通过维护最近潜变量和动作嵌入的固定长度缓存,实现高效的序列生成。本文的滚动缓存实现通过在超出容量时自动逐出最旧的 token 来管理内存,支持无限长度生成。为了解决图像到视频场景中可能出现的训练-推理差距(例如在长视频推理过程中首帧可能被排除),本文限制 KV 缓存窗口大小。这迫使模型更多依赖其学习到的先验知识和对输入动作的理解进行生成,同时通过在训练期间使初始帧对后续潜变量帧不可见来提升鲁棒性。

实验

实验设置

实现细节。 在训练基础模型时,本文以 SkyReelsV2-I2V-1.3B 初始化模型,该模型遵循 Wan 2.1 架构。1.3B 版本在生成质量与计算效率之间提供了最佳平衡,实现了实时且高质量的生成性能。本文从发布的检查点中移除了文本注入模块。为了稳定整个训练过程,本文首先对模型进行 5k 步微调。随后,在每个 DiT 块中加入动作模块,使得模型总参数量达到 1.8B。本文使用学习率为 、batch size 为 256 的设置对基础模型训练 120k 步。

在蒸馏阶段,本文首先收集了 40k 对 ODE 样本,并对因果学生模型进行 6k 步微调,随后使用基于 DMD 的 Self-Forcing 进行 4k 步训练。学习率设为 。潜变量帧的 chunk 大小和注意力局部窗口大小分别设为 3 和 6。此外,Self-Forcing 是一种无需数据的训练方法,允许手动设计动作序列分布,这使得其能更好地对齐用户输入的动作,而非自动脚本生成的随机动作序列。

数据集。 训练数据集由前文中所述的数据生成流程构建,总计约 800 小时的带动作标注的视频,分辨率为 360p。数据包括 153 小时的 Minecraft 视频数据和 615 小时的 Unreal Engine 数据,每个视频片段被整理为 57 帧。对于真实世界场景,本文使用开源的 Sekai 数据集,在数据清洗后获得了额外的 85 小时训练数据。由于 Sekai 数据集中的环境导航速度和帧率与 Unreal Engine 场景不同,本文对 Sekai 数据进行了帧重采样,以对齐时间动态和运动表现。为了验证本文框架的通用性,本文进一步收集了 574 小时的 GTA 驾驶数据和 560 小时的 Temple Run 游戏数据,这些数据具有动态场景交互,用于额外微调。所有视频被统一调整为  分辨率。

评估指标与基线。 本文使用 Matrix-Game 1.0 中提出的综合性 GameWorld Score Benchmark 对本文的通用实时模型进行评估。该基准提供了一个多维度评估框架,涵盖四个关键能力:视觉质量、时间一致性、动作可控性和物理规则理解。鉴于当前开源交互式世界模型的稀缺性,本文在两个不同领域分别进行评估:Minecraft 和野外场景。在 Minecraft 环境中,本文将 Oasis 作为主要基线进行对比;而在更复杂的野外场景生成任务中,本文采用 YUME 作为对比模型。所有实验均使用一个包含 597 帧的复合动作序列,在 32 个 Minecraft 场景和 16 个多样化野外场景图像上进行评估,以覆盖多样的交互条件。

生成结果

本文在多个领域对 Matrix-Game 2.0 与现有最先进基线模型进行了全面的定性与定量评估,包括 Minecraft 环境和野外场景中的长视频生成,以及 GTA 驾驶场景和 Temple Run 游戏的生成可视化。

Minecraft 场景结果。 下图 11 和下表 1 展示了 Matrix-Game 2.0 相较于 Oasis 的优越性能。Oasis 在几十帧之后出现明显的质量下降,而本文的模型在长时间生成过程中始终保持出色表现。定量指标显示在大多数评估维度上都有显著提升,尽管在场景一致性和动作平滑性上分数略低。本文认为这是由于 Oasis 在崩溃后倾向于生成静态帧,从而人为提高了这些特定指标。

图片

野外场景结果。 下图 12 中本文与 YUME 的对比表明,Matrix-Game 2.0 在野外场景生成中具有强大的鲁棒性。YUME 在几百帧后出现明显的伪影和颜色饱和问题,而本文的模型保持了稳定的风格一致性。此外,YUME 的生成速度较慢,难以直接应用于交互式世界建模。下表 2 显示了定量结果。由于 GameWorld Score Benchmark 中的动作可控性评估专为 Minecraft 设计,不能直接应用于野外场景。实证结果表明,YUME 在跨领域场景中动作控制性能显著下降,而本文的方法保持了稳健的可控性。YUME 在崩溃后生成的内容趋于静态,这也可能导致其在对象一致性和场景一致性方面得分较高。

图片

更多定性结果。 下图 13 展示了 Matrix-Game 2.0 在长视频生成中的卓越能力,几乎无质量下降。模型在 GTA 驾驶场景(下图 14)和 Temple Run 游戏(下图 15)中的出色表现进一步证明了其强大的领域适应性,展现出其作为世界建模基础框架的潜力。

图片
图片

消融实验

不同的 KV-cache 本地大小。 KV-cache 机制在 Matrix-Game 2.0 的自回归生成过程中对保持上下文信息起着关键作用。本文的研究揭示了缓存大小选择中的一个重要权衡:尽管更大的缓存(9 个潜在帧)在理论上可以提供更丰富的历史上下文,但它们反而更早地产生视觉伪影(下图 16)。对比分析显示,采用 6 帧缓存的模型在长期生成质量方面表现更佳,显著减少了失真和退化伪影。本文将这一现象归因于模型在生成过程中对缓存信息的过度依赖。随着缓存尺寸的增大,模型越来越依赖已存储的缓存,而不是通过自身学习能力主动纠正累积误差。这会产生一个复合效应,即早期帧中的伪影通过缓存机制被更强地记忆,并最终被当作有效的场景元素处理。本文的实证研究表明,适中的缓存大小(6 帧)在上下文保持与误差纠正能力之间提供了良好平衡。

图片

加速技术的对比分析。 为实现 25 FPS 的实时生成,本文通过若干关键改进系统性地优化了扩散模型与 VAE 组件。首先,本文将高效的 Wan2.1-VAE 架构与缓存机制整合,显著加快了长视频序列的解码过程。其次,本文策略性地仅在 DiT 模块的前半部分使用动作模块,并在蒸馏过程中将去噪步骤从 4 步减少到 3 步。下表 3 中展示了定量对比结果。表 3 中的定量对比结果表明,这些加速策略能够在保持生成质量的同时实现 25 FPS,从而达成最优的速度-质量权衡。

图片

结论

Matrix-Game 2.0 通过精心构建的数据流程与有效的训练框架,在实时交互式视频生成方面实现了重大突破。首先,开发了一个全面的数据生成流程,克服了以往在获取高质量交互场景训练数据方面的限制。基于 Unreal Engine 的系统性流程,加之在 GTA5 环境中验证的视频录制框架,为可扩展生产高保真动作标注视频数据树立了新标准。

其次,提出了一个结合动作调控与基于 Self-Forcing 蒸馏的自回归扩散框架。该方法有效缓解了长期视频合成中传统存在的误差累积问题,同时保持了实时性能。通过对扩散过程与 VAE 架构的系统性优化,实现了  的生成速度,支持无缝的人类参与式交互。

参考文献

[1] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

2025年十大前沿目标检测模型汇总!

目标检测是计算机视觉的核心任务,负责识别图像目标并定位位置。深度学习革新了目标检测技术,大幅提升准确率与效率。 目标检测是计算机视觉的核心任务,负责识别图像目标并定位位置。 深度学习 革新了目标检测技术,大幅提升准确率与效率。2025 年,多款深度学习模型在目标检测领域取得突...