AI I024: SceneTransporter：首个端到端结构化3D场景生成框架，告别拼凑感，实现实例级分离

2026年3月4日星期三

SceneTransporter：首个端到端结构化3D场景生成框架，告别拼凑感，实现实例级分离

清华大学等机构提出的SceneTransporter是首个端到端结构化3D场景生成框架，仅需一张参考图即可输出实例级分离的3D场景。它通过最优传输门控注意力解决了现有模型输出融合网格、难以编辑仿真的痛点，显著提升了几何保真度与实例一致性，适用于需要高质量、可编辑3D内容的AI研究、游戏开发及虚拟仿真等领域。

Tags:

3D场景生成

SceneTransporter

结构化3D生成

最优传输

CVPR 2026

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

一句话总结：一张参考图 → 输出带实例级分离的结构化3D场景，SceneTransporter 用「最优传输门控注意力」首次实现端到端高质量生成，下游编辑/仿真/检索直接可用！

3D内容生成最近两年火出圈，但不知道大家有没有发现一个关键痛点：

大多数「文生3D/图生3D」模型输出的是融合成一体的网格，想做材质替换、物理仿真、局部编辑？得先手动分割实例，专业门槛高、流程冗长
而「分治式」方法（先分割再生成再组装）又容易误差累积，遮挡物体重建失败，边界伪影明显

今天介绍的 SceneTransporter，正是为打破这一僵局而来。这篇由清华大学 & SkyWork AI & 北师大等联合出品、刚被 CVPR 2026 接收的工作，首次提出端到端结构化3D场景生成框架，让「单张图像 → 实例级分离的3D场景」成为现实。

论文介绍

SceneTransporter是一个从单张图像生成结构化 3D 场景的端到端框架。现有方法虽然能够生成部件级 3D 对象，但往往无法将这些部件组织成开放世界场景中的独立实例。

通过去偏聚类探测，论文揭示了一个关键问题：这种缺陷源于模型内部分配机制缺乏结构约束。基于此将结构化 3D 场景生成任务重新定义为一个全局相关性分配问题。

为了解决这个问题，SceneTransporter 在组合式 DiT 模型的去噪循环中构建并求解了一个熵最优传输 (OT) 目标。该目标引入了两个强有力的结构约束。首先，生成的传输方案限制了交叉注意力机制，从而强制图像块到部件级 3D 潜在对象的一对一专属路由，防止图像块之间发生纠缠。其次，传输过程中的竞争特性促使相似区域聚集在一起，这一过程通过基于边缘的代价函数进一步规范化，从而形成连贯的对象并防止碎片化。大量实验表明，SceneTransporter 在开放世界场景生成方面优于现有方法，显著提高了实例级连贯性和几何保真度。

方法概述

SceneTransporter流程概述。在每个去噪步骤t中，我们的最优传输引导相关性分配框架构建了一个全局OT问题，该问题涉及图像块和组合潜在DiT中的部件级标记。计算部件-块的代价，该代价基于Q/K相似度，并由图像边缘进行正则化，然后使用Sinkhorn迭代求解最优传输方案。该OT方案通过门控交叉注意力来强制执行显式的块到部件路由，并且由此产生的门控注意力图会更新潜在zt。注意力图随时间传输，表明分配变得更加清晰且更具实例一致性。

实验

对不同方法生成的结构化3D场景进行定性比较。不同颜色表示生成的3D场景中的不同部分。

结论

SceneTransporter 可用于从单张图像生成结构化的 3D 场景。该框架将任务重新定义为全局相关性分配问题，并利用最优传输层求解，从而直接对生成过程施加强大的结构约束，有效解决了现有模型中存在的结构划分错误和几何冗余等关键问题。实验结果表明，该方法达到了目前最先进的性能，能够生成几何保真度和实例级一致性显著提高的复杂开放世界场景。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

AI I024

2026年3月4日星期三

SceneTransporter：首个端到端结构化3D场景生成框架，告别拼凑感，实现实例级分离

Tags:

3D场景生成

SceneTransporter

结构化3D生成

最优传输

CVPR 2026

相关链接

论文介绍

方法概述

实验

结论

没有评论:

发表评论

Kimi K2。6深度实测：300个Agent协同，1小时完成券商研报与论文工作台

标签

2026年3月4日星期三

SceneTransporter：首个端到端结构化3D场景生成框架，告别拼凑感，实现实例级分离

Tags: 3D场景生成 SceneTransporter 结构化3D生成 最优传输 CVPR 2026

相关链接

论文介绍

方法概述

实验

结论

没有评论:

发表评论

Kimi K2。6深度实测：300个Agent协同，1小时完成券商研报与论文工作台

Tags:

3D场景生成

SceneTransporter

结构化3D生成

最优传输

CVPR 2026