2026年5月28日星期四

华为&TUM开源Face Anything:单张照片5秒重建4D人脸,消费级显卡可用

慕尼黑工业大学与华为联合推出Face Anything,实现单张照片或视频输入下5秒完成4D人脸重建与密集追踪。相比现有方案,追踪误差降低3倍,推理速度提升32倍,深度精度提升16%,RTX 4090等消费级显卡即可流畅运行(峰值显存19GB)。适用于数字人直播、虚拟偶像、影视动捕、AR互动等场景,模型即将开源,降低AIGC数字人制作门槛。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

在数字人、虚拟直播、影视动画、AR 互动等领域,4D 人脸重建一直是高门槛技术:既要精准还原面部 3D 几何细节,又要保证表情、视角变化时帧间追踪稳定无抖动。传统方法要么精度不足、要么推理极慢,难以兼顾效果与效率。近日,慕尼黑工业大学(TUM)联合华为诺亚方舟实验室重磅推出 Face Anything,创新性提出 “规范空间重建” 范式,彻底重构 4D 人脸重建逻辑。仅需单张照片或任意视角视频,5 秒即可完成 4D 人脸重建 + 密集追踪,追踪误差降低 3 倍、推理提速 32 倍,消费级显卡即可流畅部署,为 AIGC 数字人规模化落地提供高效可行的全新方案。

图片

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/abs/2604.19702
  • 主页:https://kocasariumut.github.io/FaceAnything
  • 代码模型即将开源

unsetunset论文介绍unsetunset

图片

Face Anything 由慕尼黑工业大学与华为诺亚方舟实验室联合研发,聚焦动态人脸重建的核心痛点 —— 非刚性形变、表情 / 视角变化导致的几何模糊与追踪漂移。论文指出,传统方法依赖帧间运动估计,易受视角、表情干扰,导致追踪不准、重建抖动。为此,团队提出规范面部坐标预测新范式,将追踪转化为标准化空间重建问题,从根源解决帧间对应模糊。模型基于 Transformer 架构,一次前向推理同时输出深度图、射线图、规范坐标图,无需迭代优化。实验验证,Face Anything 深度精度提升 16%、追踪误差降至 1/3、推理提速 32 倍,在 NeRSemble、VFHQ 等主流基准全面超越 V-DPM、P3DMM 等 SOTA 方案。

unsetunset方法概述unsetunset

图片
  1. 核心创新:规范空间重建范式 摒弃传统帧间运动估计,为每个像素分配标准化人脸坐标(统一姿态 / 表情空间),追踪转化为规范空间最近邻匹配,天然保证帧间一致性,彻底解决抖动、漂移问题。
  2. 模型架构(1.2B 参数) 基于 DA3 优化的 Transformer 模型,双预测头并行输出: 深度 / 射线头:精准还原面部 3D 几何细节; 规范坐标头:输出像素级标准化坐标,支撑密集追踪。
  3. 两阶段训练 预训练:在 DAViD 数据集学习通用面部几何先验; 精调:基于 NeRSemble 多视角数据,交替训练多视角重建与单视角追踪能力,兼顾精度与泛化性。

unsetunset实验结果unsetunset

图片
图片
图片

精度全面碾压

  • 深度误差:较 Sapiens-2B 降低 16%,重建细节更精准;
  • 追踪误差:较 V-DPM 降低约 3 倍,头发、边缘区域追踪无失效;
  • 长程追踪:间隔 20 帧仍保持 90.9% 准确率,稳定性拉满。

效率跨越式提升

  • 推理速度:40 帧仅需 5 秒,比 V-DPM 快 32 倍;
  • 显存占用:峰值 19GB,RTX 4090 等消费级显卡可流畅运行;
  • 吞吐量:单卡可处理 470 张图,远超同类模型。

效果直观领先

  • 细节还原:面部纹理、发丝、褶皱精准复刻;
  • 帧间稳定:表情、视角变化无抖动、无漂移;
  • 多适配:支持单图、多图、任意视角视频输入。

unsetunset结论unsetunset

Face Anything 以规范空间重建为核心,打破 4D 人脸重建 “精度与效率不可兼得” 的行业困境,实现 “5 秒出模、消费级可用、精度拉满” 三重突破。它不仅是技术范式革新,更直接降低 4D 人脸技术门槛,为数字人直播、虚拟偶像、影视动捕、AR 美颜、虚拟试穿等场景提供低成本、高效率解决方案。随着模型开源,将推动 AIGC 数字人从高成本专业制作,走向轻量化快速生成,加速行业规模化落地,成为数字人领域的核心基础技术之一。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

ICML2026 I 华科&酷睿程GemDepth:视频深度估计新SOTA,超越VGGT/VDA

华中科技大学与酷睿程团队提出GemDepth框架,首次利用几何参数自预测实现视频深度估计的3D几何一致性,在视角剧烈变化下消除帧间闪烁与重影。零样本测试中,时间一致性指标TAE较VideoDepthAnything提升17.54%,点云重建F1分数达90.43(超越DepthAnything3达15.3%),参数量仅0.58B。代码已开源,适合AI视觉研究者与3D重建应用。

Tags:

    点击下方卡片,关注“AI生成未来

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

前言:时间一致性,靠的不仅仅是2D层面的约束

视频深度估计任务的核心问题,始终是如何提高视频帧之间的时间一致性以克服帧间闪烁。基于高精度高泛化的单帧深度估计大模型,无论是判别式方法(VideoDepthAnything)抑或是生成式方法(DepthCrafter)都已经有了不错的空间精度。

然而,它们主要依赖于深度隐式时间平滑在二维帧上进行操作,缺乏三维几何感知。 这种缺陷使得它们难以保持严格的几何一致性,尤其是在复杂的相机旋转或剧烈的视角变化期。此外,通过优先考虑全局平滑性,这些框架往往会抑制高频空间信息,导致边界模糊和结构退化。

我们认为,明确的3D几何理解-包括对相机运动和全局3D结构的感知-是实现真正时间一致性的先决条件。 由于缺乏明确的运动感知先验,模型无法建立增强一致性所必需的潜在点级对应关系。因此,他们容易受到不一致的时间线索的干扰,从而导致空间模糊。当我们把连续的10帧点云投影到第一帧坐标系堆叠到一起时,便明显反映了这个问题。如下图所示,之前的SOTA方法VDA由于缺乏3D几何一致性存在严重的重影,而GemDepth有效的抑制了这一点。

  • 论文链接:https://arxiv.org/abs/2605.10525
  • 代码链接:https://github.com/Yuecheng919/GemDepth

本文作者来自于华中科技大学杨欣团队和酷睿程团队,一作刘粤诚,通讯程俊达

图片

一、华科&酷睿程团队解决方案:GemDepth

华科&酷睿程团队 提出基于几何参数自预测的视频深度估计框架 GemDepth,在视频深度估计领域中首次利用几何参数作为隐式嵌入,解决现有视频深度估计在视角剧烈变化时难以维持3D几何一致性、易导致空间模糊与时序不连续的问题。模型效果大幅刷新视频深度估计SOTA并在点云重建效果上优于DepthAnything3,VGGT等3D基础模型。

核心思路

现有的方法往往陷入一个困境:它们本质上是在做 “2D 特征序列的盲目平滑”。GemDepth给出了截然不同的做法:通过显式预测相机位姿来注入运动先验,并在“时序对齐”与“空间细化”之间交替运行,协同聚合出3D几何一致的视频深度。

图片

二、具体实施:几何先验与时空交替的协同作用

GemDepth架构如上图所示,主要分为两大核心板块:

几何嵌入模块(GEM)

基于DinoV2 Encoder中丰富的特征表示,几何嵌入模块(GEM)基于轻量级的 EfficientPoseNet,预测出帧间6-DoF相机位姿。然后相机位姿信息经由 MLP 编码,生成度量感知的相机特征表示 F~cam~作为后续的几何先验。

  • EfficientPoseNet通过一个四层的交替注意力Transformer处理注入到特征图F~4~中的可学习相机token t。
  • 为了强化物理约束,GEM 将所有位姿投影至统一的规范化坐标系。
  • 针对单目尺度二义性问题,该模块利用全局尺度因子 Z 对每帧平移量进行归一化处理。通过对 GEM 模块进行显式的尺度归一化真值监督,确保预测位姿在统一的尺度空间内运行,从根本上消除了初始的尺度不一致现象。
  • 这种嵌入与主特征图 F~4~ 深度融合,通过物理约束提供显式的几何引导,使深度优化过程由“盲目平滑”转向“物理对齐”。
图片

交替时空Transformer模块(ASTT)

交替时空 Transformer(ASTT)通过将依赖关系建模解耦为两个策略性阶段,实现了时空表示的统一。给定输入增强视觉特征,ASTT 在“时序对齐”与“空间细化”之间交替运行,以强化几何一致性。

  • 用于几何对齐的时序注意力: 我们首先重组特征图,在对齐的空间位置上显式隔离时域依赖。利用 GEM 提供的 6-DoF 运动先验,该阶段在时间轴上建立了显式的点级对应关系。通过执行基于轨迹的特征聚合,它在捕获纯粹运动线索的同时,减轻了复杂空间上下文的干扰,从而确保了稳健的空间结构一致性和无闪烁的深度序列。

  • 用于结构细化的空间注意力: 以对齐后的时序特征为条件,我们重新构建表示以进行全局信息交换。该过程分解为两种专门机制:帧内空间注意力负责捕获局部特征,而帧间空间注意力则对跨帧的长程依赖进行建模。这一阶段聚合了相关的 3D 空间特征,旨在增强高频表示并锐化结构细节。通过在这两种机制之间交替迭代,ASTT 遵循“先几何一致性对齐,后细节锐化”的原则,最终输出高保真的深度序列。

图片

三、实验结果:视频深度与点云重建全面SOTA

Zero-shot Depth Estimation

图片
  • 空间精度指标:无论在DepthAnythingV2还是VideoDepthAnything基础上接入GemDepth框架,我们在所有指标上都始终树立了新的先进水平。至关重要的是,GemDepth以卓越的数据效率取得了这些成果。
图片
  • 时间一致性指标:GemDepth始终能产生最稳定的深度估计。值得注意的是,GemDepth-DAv2和GemDepth-VDA均为时间稳定性树立了新的最先进标准,在TAE指标上分别比各自的基线高出56.14%和17.54%。

3D Geometric Accuracy

图片

在 3D 几何精度方面,GemDepth性能实现了断层领先。面对拥有 1.19B 庞大参数量的 DepthAnything3 (DA3) 和 1.10B 的 VGGT,我们的模型仅仅使用了不到它们一半的参数(0.58B),却在核心指标上实现了全面碾压!

  • Depth Accuracy:

    • GemDepth在视频深度估计方面显著优于 DA3,在Scannet 上,时间一致性指标(TAE)减少了一半以上(0.47 vs 1.12),并将 Bonn 上的绝对相对误差(AbsRel)降低了 70%(0.05 vs 0.18)。这得益于我们模型强大的3D 感知能力。在几何线索引导下,通过交替时空帧间交互捕获点级对应关系,同步提升空间精度与时序一致性。
  • Pointcloud Reconstruction:

    • 除了卓越的视频深度预测精度,GemDepth 还有着极高的 3D 结构保真度。通过将预测的深度序列反投影至 3D 空间,与现有的 3D 基础模型相比,GemDepth 生成了极其干净、连贯的三维点云。具体而言,在极具挑战性的高动态数据集 Bonn ,我们的方法在点云重建的核心指标 F1 上取得了突破性进展,从 78.44(DepthAnything3)大幅跃升至 90.43,相对提升高达 15.3%。这一显著的性能飞跃,得益于网络中间层预测的高质量相机位姿与高精度深度边界的深度协同,有效消除了以往方法中常见的‘重影’伪影和边缘拉丝现象。
  • Pose Accuracy:

    • 我们对GemDepth的位姿预测指标也做了定量分析。GemDepth在所有数据集上均取得了极具竞争力的绝对轨迹误差(ATE)。在 Sintel 和 Bonn 等室内数据集中,GemDepth 的 ATE 稳定在 0.03 量级,与庞大的 3D 基础模型仅存在微小差距。值得强调的是,DA3 和 VGGT 是依赖于超过 1.10B 的庞大参数量来拟合这些轨迹的,而 GemDepth 仅使用了 0.58B 的参数量就实现了同等量级的几何精度。更重要的是,在我们的架构中,位姿并非最终输出,而是作为一种强大的物理先验。GEM 模块输出的高可靠性、尺度归一化的中间位姿,为下游的交替时空 Transformer(ASTT)提供了极其精确的帧间对齐引导。

Ablation Studies

图片

在消融实验中,我们系统性验证了模型关键组件的有效性。以VideoDepthAnything为baseline,通过比较加入GEM模块中的Spatial Attention、Temporal Attention和baseline的效果,以及在GEM基础上加入ASTT模块后的效果,证明GEM模块和ASTT模块的有效性。这些模块展现出强大的协同效应,同时优化深度精度和时间一致性。

Visualization

  • Qualitative comparison of spatial accuracy on diverse datasets
图片

如白色箭头所示,GemDepth展现出卓越的空间精度和结构保真度,能有效恢复细粒度细节,同时减轻了其他方法中常见的过度平滑伪影。值得注意的是,第二行展示了我们的模型在动态物体上的优越性能,能有效还原出空中运动的气球。

  • Qualitative results of temporal consistency on videos of varying lengths.
图片

为了评估时间稳定性,我们通过沿固定空间轴(由红线表示)提取深度切片, GemDepth展示了卓越的时间连贯性。相比之下,DepthAnythingV2和VideoDepthAnything存在明显的闪烁和锯齿状的时间不连续性。

  • Zero-Shot performance in KITTI

  • Pointcloud comparation

结论

本文提出了一种新型的视频深度估计框架GemDepth,解决了现有方法在动态场景和长视频中常见的时序闪烁与尺度模糊问题。GemDepth在四大主流基准测试中达到SOTA,并对各类复杂长度的真实世界序列展现出了强大的零样本泛化能力。 与现有的视频深度估计方法相比,GemDepth 具有以下核心优势:

  • 极致的时空 3D 几何一致性:通过全局几何先验应对剧烈视角变化与长时序视频时的帧间闪烁。
  • 卓越的空间细节锐利度:通过时序对齐与空间细化的解耦交替机制,精准锁定潜在的点级对应关系,完美保留复杂物体结构的锐利边界。
  • 高度动态场景下的鲁棒感知:能够有效利用几何线索过滤干扰,在高度动态的视频序列中依然输出精准的深度预测。
  • 高保真的全场景点云重建:凭借帧间的高度一致性与帧内的极致清晰度,直接投影生成的 3D 点云结构致密且无明显几何伪影。

转自:具身智能之心

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

华为&TUM开源Face Anything:单张照片5秒重建4D人脸,消费级显卡可用

慕尼黑工业大学与华为联合推出Face Anything,实现单张照片或视频输入下5秒完成4D人脸重建与密集追踪。相比现有方案,追踪误差降低3倍,推理速度提升32倍,深度精度提升16%,RTX 4090等消费级显卡即可流畅运行(峰值显存19GB)。适用于数字人直播、虚拟偶像、影视动...