宾夕法尼亚大学与Adobe提出的tttLRM模型,首次将测试时训练引入3D重建领域,通过LaCT架构实现线性计算复杂度。该模型支持多达64张多视角图像的流式输入,在保持高质量重建细节的同时,大幅提升推理速度,适用于需要快速、精准建模的复杂场景与对象级3D重建任务。
Tags:
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
一句话总结:推理时动态更新权重 + 线性计算复杂度 + 支持64视图流式输入,tttLRM 首次实现「边看边建」的高质量3D重建,速度与质量兼得!
3D重建领域最近两年卷得飞起,但不知道大家有没有发现一个核心矛盾:
想重建复杂场景,需要输入多视角图像 → 但传统Transformer注意力复杂度是序列长度的平方,64张图直接爆显存 想加速推理,用稀疏视图或降采样 → 但几何细节丢失,重建质量断崖式下跌 优化类方法(如3DGS)质量高但慢,前馈类方法快但泛化弱 → 难以兼顾
今天介绍由宾大 & Adobe Research & UCI联合提出的 tttLRM,首次将测试时训练(Test-Time Training, TTT) 引入3D重建,提出线性复杂度的LaCT架构,让「长上下文+高质量+快推理」三者首次共存。
相关链接
论文:https://arxiv.org/abs/2602.20160 主页:https://cwchenwang.github.io/tttLRM 源码:https://github.com/cwchenwang/tttLRMHugging Face 数据:https://huggingface.co/datasets/DL3DV/DL3DV-Benchmark
论文介绍
论文提出了一种新型的大规模三维重建模型 tttLRM,该模型利用测试时训练 (TTT) 层实现了长上下文自回归三维重建,且计算复杂度为线性,从而进一步扩展了模型的性能。该框架能够高效地将多幅图像观测值压缩到 TTT 层的快速权重中,在潜在空间中形成隐式三维表示,该表示可以解码为各种显式格式,例如用于下游应用的高斯 Splats (GS)。
模型的在线学习版本支持从流式观测值中逐步进行三维重建和细化。在新的视图合成任务上进行预训练可以有效地迁移到显式三维建模,从而提高重建质量并加快收敛速度。大量实验表明,与现有方法相比,该方法在物体和场景的前馈三维高斯重建方面均取得了更优异的性能。
方法概述
给定一组已摆好姿势的输入图像,tttLRM 在进行图像分割后,将其编码成标记(绿色方框)。这些输入标记被送入 LaCT 模块(蓝色方框所示),该模块会相应地更新快速权重。另一组虚拟标记(蓝色方框)用于查询更新后的快速权重,并解码成 3D 表示(例如 3DGS),以实现高质量的新视图合成。
分布式前馈重建训练示意图。首先,图像标记被分片到各个GPU上,每个GPU在快速权重同步后,为其分配的虚拟视图预测高斯分布。然后,将预测的高斯分布收集起来以构建完整场景,之后每个GPU渲染一部分新的视图并计算各自的损失。最后,所有GPU的梯度都被约简并反向传播到所有设备上。
实验结果
为了验证tttLRM的有效性,作者在多个数据集上进行了广泛实验,包括对象级和场景级的3D重建任务。实验结果表明,与当前最先进的方法相比,tttLRM在前馈3D高斯重建任务中展现出显著的性能优势,无论是重建精度还是收敛速度均有所提升。特别是在处理长上下文信息时,tttLRM的线性计算复杂度优势尤为明显,为大规模3D场景重建提供了新的可能。
结论
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论