AI I024: 字节 Depth Anything 3 来了！根据任意视觉输入预测空间一致的几何形状，多领域超越VGGT，代码模型已开源。

2025年11月19日星期三

字节 Depth Anything 3 来了！根据任意视觉输入预测空间一致的几何形状，多领域超越VGGT，代码模型已开源。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！点击下方名片关注AIGC Studio公众号！

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

字节提出 Depth Anything 3，能够从任何视觉输入中恢复空间，并实现卓越的几何精度和 3DGS 渲染。

秘诀是什么？无需复杂的任务！无需特殊的架构！只需一个简单的 Transformer 模型，并用深度光线表示进行训练即可。

无论是否已知相机姿态。DA3 追求最小化建模，并得出两个关键结论：

一个简单的普通Transformer（例如，普通的DINO编码器）就足以作为主干网络，无需架构上的特殊设计。
单一的深度射线表示避免了复杂的多任务学习。
DA3 在单目深度估计方面显著优于 DA2，在多视角深度估计和姿态估计方面显著优于VGGT 。所有模型均完全基于公开的学术数据集进行训练。

在多视图几何体和姿态精度方面显著优于 VGGT；在单目输入的情况下，它也超越了 Depth Anything 2，同时保持了与其在细节和鲁棒性方面的一致性。

unsetunset视频重建unsetunset

DA3 可以从任意数量的视图中恢复视觉空间，涵盖从单视图到多视图的范围。此演示展示了 DA3 从复杂视频中恢复视觉空间的能力。

unsetunset大规模场景的SLAMunsetunset

精确的视觉几何估计能够提升SLAM的性能。定量结果表明，在大规模环境下，仅用DA3替换VGGT-Long中的VGGT（DA3-Long）就能显著降低漂移，其效果甚至优于需要48小时以上才能完成的COLMAP。

unsetunset前馈三维高斯估计unsetunset

通过冻结整个主干网络并训练 DPT 头来预测 3DGS 参数，我们的模型实现了非常强大且具有很强泛化能力的新颖视图合成能力。

unsetunset基于多摄像头的空间感知unsetunset

给定车辆不同视角的多张图像（即使没有重叠），DA3 可以估计稳定且可融合的深度图，从而增强自动驾驶车辆对环境的理解。

unsetunset相关链接unsetunset

论文：https://arxiv.org/pdf/2511.10647
主页：https://depth-anything-3.github.io
代码：https://github.com/ByteDance-Seed/Depth-Anything-3
试用：https://huggingface.co/spaces/depth-anything/depth-anything-3

unsetunset介绍unsetunset

Depth Anything 3 模型能够根据任意数量的视觉输入预测空间一致的几何形状，无论是否已知相机姿态。为了实现最小化建模，DA3 带来了两个关键发现：仅需一个简单的 Transformer 架构（例如，原始的 DINOv2 编码器）即可作为骨干网络，无需进行架构上的特殊设计；单一的深度光线预测目标避免了复杂的多任务学习。

通过提出的师生训练范式，该模型在细节和泛化能力方面达到了与 Depth Anything 2 (DA2) 相当的水平。论文建立了一个新的视觉几何基准测试，涵盖相机姿态估计、任意视角几何和视觉渲染。在该基准测试中，DA3 在所有任务上都取得了新的最佳成绩，在相机姿态精度方面平均比之前的最佳模型 VGGT 提高了 35.7%，在几何精度方面提高了 23.6%。此外，它在单目深度估计方面也优于 DA2。所有模型均完全基于公开的学术数据集进行训练。

unsetunset方法概述unsetunset

Depth Anything 3 的流程。Depth Anything 3 采用单个 Transformer（原始 DINOv2 模型），无需任何架构修改。为了实现跨视图推理，引入了一种输入自适应的跨视图自注意力机制。双 DPT 头用于从视觉标记预测深度图和光线图。相机参数（如果可用）被编码为相机标记，并与图像块标记连接，参与所有注意力操作。

数据集

在 14 个数据集上训练了度量深度模型，包括 Taskonomy、DIML（户外）、DDAD、Argoverse、Lyft、PandaSet、Waymo、ScanNet++、ARKitScenes、Map-free、DSEC、Driving Stereo 和 Cityscapes 数据集。对于立体数据集，利用 FoundationStereo 的预测结果作为训练标签。

unsetunset实验结果unsetunset

实际场景中相机姿态和深度估计的可视化。

unsetunset结论unsetunset

Depth Anything 3 通过一个简单的 Transformer 模型，在基于深度和光线目标的教师-学生监督下进行训练，无需复杂的架构即可统一任意视角几何。尺度感知深度、逐像素光线和自适应跨视角注意力机制使模型能够继承强大的预训练特征，同时保持轻量级和易于扩展。在所提出的视觉几何基准测试中，该方法创造了新的姿态和重建记录，其巨型和紧凑型变体均超越了之前的模型，而相同的骨干网络也支持高效的前馈新视角合成模型。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

AI I024