慕尼黑工业大学与华为联合推出Face Anything,实现单张照片或视频输入下5秒完成4D人脸重建与密集追踪。相比现有方案,追踪误差降低3倍,推理速度提升32倍,深度精度提升16%,RTX 4090等消费级显卡即可流畅运行(峰值显存19GB)。适用于数字人直播、虚拟偶像、影视动捕、AR互动等场景,模型即将开源,降低AIGC数字人制作门槛。
Tags:
在数字人、虚拟直播、影视动画、AR 互动等领域,4D 人脸重建一直是高门槛技术:既要精准还原面部 3D 几何细节,又要保证表情、视角变化时帧间追踪稳定无抖动。传统方法要么精度不足、要么推理极慢,难以兼顾效果与效率。近日,慕尼黑工业大学(TUM)联合华为诺亚方舟实验室重磅推出 Face Anything,创新性提出 “规范空间重建” 范式,彻底重构 4D 人脸重建逻辑。仅需单张照片或任意视角视频,5 秒即可完成 4D 人脸重建 + 密集追踪,追踪误差降低 3 倍、推理提速 32 倍,消费级显卡即可流畅部署,为 AIGC 数字人规模化落地提供高效可行的全新方案。
相关链接
论文:https://arxiv.org/abs/2604.19702 主页:https://kocasariumut.github.io/FaceAnything 代码模型即将开源
论文介绍
Face Anything 由慕尼黑工业大学与华为诺亚方舟实验室联合研发,聚焦动态人脸重建的核心痛点 —— 非刚性形变、表情 / 视角变化导致的几何模糊与追踪漂移。论文指出,传统方法依赖帧间运动估计,易受视角、表情干扰,导致追踪不准、重建抖动。为此,团队提出规范面部坐标预测新范式,将追踪转化为标准化空间重建问题,从根源解决帧间对应模糊。模型基于 Transformer 架构,一次前向推理同时输出深度图、射线图、规范坐标图,无需迭代优化。实验验证,Face Anything 深度精度提升 16%、追踪误差降至 1/3、推理提速 32 倍,在 NeRSemble、VFHQ 等主流基准全面超越 V-DPM、P3DMM 等 SOTA 方案。
方法概述
核心创新:规范空间重建范式 摒弃传统帧间运动估计,为每个像素分配标准化人脸坐标(统一姿态 / 表情空间),追踪转化为规范空间最近邻匹配,天然保证帧间一致性,彻底解决抖动、漂移问题。 模型架构(1.2B 参数) 基于 DA3 优化的 Transformer 模型,双预测头并行输出: 深度 / 射线头:精准还原面部 3D 几何细节; 规范坐标头:输出像素级标准化坐标,支撑密集追踪。 两阶段训练 预训练:在 DAViD 数据集学习通用面部几何先验; 精调:基于 NeRSemble 多视角数据,交替训练多视角重建与单视角追踪能力,兼顾精度与泛化性。
实验结果
精度全面碾压
深度误差:较 Sapiens-2B 降低 16%,重建细节更精准; 追踪误差:较 V-DPM 降低约 3 倍,头发、边缘区域追踪无失效; 长程追踪:间隔 20 帧仍保持 90.9% 准确率,稳定性拉满。
效率跨越式提升
推理速度:40 帧仅需 5 秒,比 V-DPM 快 32 倍; 显存占用:峰值 19GB,RTX 4090 等消费级显卡可流畅运行; 吞吐量:单卡可处理 470 张图,远超同类模型。
效果直观领先
细节还原:面部纹理、发丝、褶皱精准复刻; 帧间稳定:表情、视角变化无抖动、无漂移; 多适配:支持单图、多图、任意视角视频输入。
结论
Face Anything 以规范空间重建为核心,打破 4D 人脸重建 “精度与效率不可兼得” 的行业困境,实现 “5 秒出模、消费级可用、精度拉满” 三重突破。它不仅是技术范式革新,更直接降低 4D 人脸技术门槛,为数字人直播、虚拟偶像、影视动捕、AR 美颜、虚拟试穿等场景提供低成本、高效率解决方案。随着模型开源,将推动 AIGC 数字人从高成本专业制作,走向轻量化快速生成,加速行业规模化落地,成为数字人领域的核心基础技术之一。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论