AI I024: ICCV 2025 I Meta LeCun 团队发布DINO-World：基于隐空间仅 1/12 参数量实现SOTA视频预测。

2025年8月15日星期五

ICCV 2025 I Meta LeCun 团队发布DINO-World：基于隐空间仅 1/12 参数量实现SOTA视频预测。

DINO-world 是一个在大型非精选视频数据集上进行大规模训练的潜在空间世界模型，它填补了大规模像素空间生成模型和小规模潜在空间世界模型之间的空白。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

视频世界模型（Video World Models）旨在通过预测环境未来状态，实现智能体的规划与控制。然而，传统方法面临两大挑战：

数据依赖：大规模标注视频数据获取成本高，且需包含动作信息。
任务依赖：动作空间与任务强相关，泛化能力受限。

核心贡献：

DINO-World 是一种基于 DINOv2 隐空间的视频世界模型，通过"预训练+微调"两阶段框架，实现：

高效预训练：在未标注视频数据上学习通用时空动态。
动作条件微调：少量标注数据即可适配具体任务（如机器人控制）。
强物理理解：在直觉物理基准测试中表现优异，验证对现实世界的深刻建模能力。

unsetunset相关链接unsetunset

论文：https://arxiv.org/pdf/2507.19468v1

unsetunset论文介绍unsetunset

DINO-world 是一个强大的通用视频世界模型，经过训练后可在 DINOv2 的潜在空间中预测未来帧。通过利用预训练的图像编码器，并在大规模非精选视频数据集上训练未来预测器，DINO-world 可以学习从驾驶场景、室内场景到模拟环境等各种场景的时间动态。论文证明了 DINO-world 在各种视频预测基准测试（例如分割和深度预测）上的表现均优于先前的模型，并展现了对直觉物理学的强大理解力。此外还证明了可以根据观察动作轨迹对预测器进行微调。由此产生的动作条件世界模型可以通过模拟潜在空间中的候选轨迹进行规划。

unsetunset方法概述unsetunset

潜在视频世界模型架构。冻结的 DINOv2 编码器将视频帧映射到潜在空间中的块标记。预测器是一堆交叉注意力模块，经过训练后，可以根据所有过去的标记 x1:t,·,· 和时间戳 T1:t 预测未来时间戳 τt+1 处的块标记 xˆt+1,i′,j′ 及其位置 (i′, j′)。时空坐标通过三轴 RoPE 注入到每个标记中。块三角注意力掩码允许并行训练所有帧的所有块，并尊重时间因果关系。为了进行条件微调，我们添加了零初始化的动作模块，用相应的动作更新每个查询。 DINO-World 由三大模块组成：

视频编码器：采用 DINOv2-ViT 将每帧图像编码为特征图（尺寸为 H×W×D），保留语义信息（如物体类别、空间关系）。优势：避免像素级重建，聚焦高层次特征，计算效率显著提升。
预测器：基于交叉注意力 Transformer，堆叠 N=40 层残差块，预测未来帧的隐空间特征。

关键设计：

动态时间采样：随机选择时间间隔 Δτ 训练，支持任意时长预测。
位置编码：通过 RoPE（Rotary Position Embedding）注入时空坐标，增强时序与空间关系建模。
动作适配器（可选）：在微调阶段引入，将动作信号（如机器人关节扭矩）嵌入预测流程。
设计：轻量级 MLP 模块，仅更新查询向量（Query），避免破坏预训练特征。

unsetunset实验结果unsetunset

实验结果总结：DINO-World在多项基准测试中展现了卓越性能：在Cityscapes、VSPW和KITTI数据集的密集预测任务中，其短期（0.2秒）和中期（0.5秒）语义分割与深度估计准确率显著超越DINO-Foresight、COSMOS等基线模型，尤其在中期预测中通过自回归机制保持结构一致性，而像素级生成模型（如COSMOS）因误差累积导致模糊；在IntPhys、GRASP和InfLevel直觉物理基准测试中，DINO-World对物体永存性、重力等规律的平均理解准确率达91.3%，远超V-JEPA和COSMOS；在机器人控制任务（PushT、Wall、PointMaze）中，经动作条件微调的模型成功率较从头训练提升12.5%-26.9%，验证了其快速适配新任务的能力，同时微调阶段仅需更新少量参数，显著降低数据需求。

unsetunset结论unsetunset

为了最大限度地利用预测器学习时间动态的能力，该方法利用了具有强语义特征的冻结视觉编码器，即 DINOv2。根据设计，该预测器不受特定分辨率、帧率或上下文长度的限制，并且可以轻松适应动作条件的后训练。此外论文进行了广泛的评估，整合并比较了几种世界建模方法。密集预测和直觉物理学的结果证明了潜在空间世界模型的优势，以及大规模预训练的重要性。未来的方向包括改进长期预测，例如通过对其中一种可能的未来进行采样，探索数据管理策略，在现实环境中验证训练后和规划，并结合语言作为条件信号

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

AI I024