由英伟达和康奈尔大学提出的 ArtiScene 是一种无需训练、语言驱动的 3D 场景生成流程,它可以根据文本
由英伟达和康奈尔大学提出的 ArtiScene 是一种无需训练、语言驱动的 3D 场景生成流程,它可以根据文本提示,设计出丰富多样、美观且易于编辑的场景,涵盖各种类别和风格。下图中展示了四种结果,并附有从不同角度放大的细节。所有元素均已生成,包括家具、装饰物、场景布局、地板和墙壁。首先利用文本转图像模型生成一个 2D 图像中介,然后从中提取丰富的布局和样式信息。例如,最右边一列显示了通过对象分割和 LLM 驱动的描述从图像中获取的对象外观和几何形状。
多元化风格
下面是围绕其中心旋转的生成的 3D 场景的视频渲染
论文成果(左)和 Holodeck 的成果(右)。每对的风格都写在 Holodeck 的一面。
多样化场景类别
扩展
相关链接
论文:https://arxiv.org/abs/2506.00742 主页:https://artiscene-cvpr.github.io/ 代码:https://github.com/jaclyngu/artiscene(即将开源) 官网:https://research.nvidia.com/labs/dir/artiscene/
CVPR2025 Poster
论文介绍
设计 3D 场景传统上是一项颇具挑战性且费力的任务,既需要艺术专业知识,也需要熟练操作复杂的软件。文本转 3D 生成技术的最新进展极大地简化了这一过程,用户只需基于简单的文本描述即可创建场景。然而,由于这些方法通常需要额外的训练或情境学习,其性能常常受到高质量 3D 数据有限的限制。相比之下,从网络规模图像中学习的现代文本转图像模型可以生成具有多样化、可靠空间布局以及一致、视觉吸引力风格的场景。
论文的关键见解是,与其直接从 3D 场景中学习,不如利用生成的 2D 图像作为中介来指导 3D 合成。有鉴于此论文推出了 ArtiScene,这是一种无需训练的自动化场景设计流程,它将自由格式文本转图像生成的灵活性与 2D 中介布局的多样性和可靠性相结合。我们根据场景描述生成二维中间图像,提取物体形状和外观,创建三维模型,并结合从同一图像中提取的几何形状、位置和姿态,将它们组装成最终场景。ArtiScene 可推广至各种场景和风格,其布局和美学质量的量化指标远超最先进的基准测试。在广泛的用户研究中,它的平均胜率为 74.89%,在 GPT 评估中则为 95.07%。
方法概述
ArtiScene 以文本提示作为输入,首先为图像中介提示一个文本转图像模型(黄线)。然后,通过物体检测、图像修复以及提示 ChatGPT 描述检测到的物体的外观和几何形状,我们为每个物体获取一个 3D 模型(蓝线)。同时,我们将单目深度估计与先前检测到的 2D 边界框相结合,以估计每个物体的 3D 边界框(红线)。我们还合成了室内场景的地板和墙壁纹理(绿线)。最后,我们将这些获取的模型和布局信息组合起来,得到最终的 3D 场景。
实验结果
与 Holodeck 进行定性比较。(a) 中,论文展示了从 MIT 数据集中采样的更多场景类别;(b) 中,我们展示了一个固定类别(卧室),其中包含用于评估的不同风格和主题。论文方法在广泛的场景类别和美学方面都具有稳健性。
对象编辑。 由于 ArtiScene 通过生成单个 3D 对象并进行组装来生成场景,因此它支持快速简便的模块化编辑。
结论
论文提出了一种新颖的文本转3D室内场景生成方法,该方法以2D图像为中介。通过广泛的评估,我们证明了我们的成果在多样性、视觉质量和物理合理性方面的优越性。ArtiScene为各种应用铺平了道路,例如复杂的3D室内设计以及沉浸式增强现实和虚拟现实。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论