清华大学等机构提出的SceneTransporter是首个端到端结构化3D场景生成框架,仅需一张参考图即可输出实例级分离的3D场景。它通过最优传输门控注意力解决了现有模型输出融合网格、难以编辑仿真的痛点,显著提升了几何保真度与实例一致性,适用于需要高质量、可编辑3D内容的AI研究、游戏开发及虚拟仿真等领域。
Tags:
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
一句话总结:一张参考图 → 输出带实例级分离的结构化3D场景,SceneTransporter 用「最优传输门控注意力」首次实现端到端高质量生成,下游编辑/仿真/检索直接可用!
3D内容生成最近两年火出圈,但不知道大家有没有发现一个关键痛点:
大多数「文生3D/图生3D」模型输出的是融合成一体的网格,想做材质替换、物理仿真、局部编辑?得先手动分割实例,专业门槛高、流程冗长 而「分治式」方法(先分割再生成再组装)又容易误差累积,遮挡物体重建失败,边界伪影明显
今天介绍的 SceneTransporter,正是为打破这一僵局而来。这篇由清华大学 & SkyWork AI & 北师大等联合出品、刚被 CVPR 2026 接收的工作,首次提出端到端结构化3D场景生成框架,让「单张图像 → 实例级分离的3D场景」成为现实。
相关链接
论文: https://arxiv.org/pdf/2602.22785v1.pdf 项目: https://2019epwl.github.io/SceneTransporter
论文介绍
SceneTransporter是一个从单张图像生成结构化 3D 场景的端到端框架。现有方法虽然能够生成部件级 3D 对象,但往往无法将这些部件组织成开放世界场景中的独立实例。
通过去偏聚类探测,论文揭示了一个关键问题:这种缺陷源于模型内部分配机制缺乏结构约束。基于此将结构化 3D 场景生成任务重新定义为一个全局相关性分配问题。
为了解决这个问题,SceneTransporter 在组合式 DiT 模型的去噪循环中构建并求解了一个熵最优传输 (OT) 目标。该目标引入了两个强有力的结构约束。首先,生成的传输方案限制了交叉注意力机制,从而强制图像块到部件级 3D 潜在对象的一对一专属路由,防止图像块之间发生纠缠。其次,传输过程中的竞争特性促使相似区域聚集在一起,这一过程通过基于边缘的代价函数进一步规范化,从而形成连贯的对象并防止碎片化。大量实验表明,SceneTransporter 在开放世界场景生成方面优于现有方法,显著提高了实例级连贯性和几何保真度。
方法概述
SceneTransporter流程概述。在每个去噪步骤t中,我们的最优传输引导相关性分配框架构建了一个全局OT问题,该问题涉及图像块和组合潜在DiT中的部件级标记。计算部件-块的代价,该代价基于Q/K相似度,并由图像边缘进行正则化,然后使用Sinkhorn迭代求解最优传输方案。该OT方案通过门控交叉注意力来强制执行显式的块到部件路由,并且由此产生的门控注意力图会更新潜在zt。注意力图随时间传输,表明分配变得更加清晰且更具实例一致性。
实验
结论
SceneTransporter 可用于从单张图像生成结构化的 3D 场景。该框架将任务重新定义为全局相关性分配问题,并利用最优传输层求解,从而直接对生成过程施加强大的结构约束,有效解决了现有模型中存在的结构划分错误和几何冗余等关键问题。实验结果表明,该方法达到了目前最先进的性能,能够生成几何保真度和实例级一致性显著提高的复杂开放世界场景。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论