AI I024: CVPR 2025 I 多实例扩散模型MIDI：可从单个图像创建高保真 3D 场景，模型&代码已开源。

2025年3月19日星期三

CVPR 2025 I 多实例扩散模型MIDI：可从单个图像创建高保真 3D 场景，模型&代码已开源。

MIDI 是一种 3D 生成模型，用于从单幅图像生成合成 3D 场景。与依赖重建或检索技术的现有方法或采用多阶段逐个对象生成的最新方法不同，MIDI 将预训练的图像到 3D 对象生成模型扩展为多实例扩散模型，从而能够同时生成具有精确空间关系和高通用性的多个高质量 3D 实例。目前已经发布了MIDI-3D的模型权重、gradio demo、推理脚本。

功能

高品质：它可以生成形状复杂的多样化高品质 3D 场景。
高度通用性：尽管仅在合成数据上进行训练，但它可以推广到真实图像和风格化图像输入。
高效率：它从分割的实例图像生成 3D 场景，无需冗长的步骤或耗时的每个场景优化。

安装

首先克隆 repo：

git clone https://github.com/VAST-AI-Research/MIDI-3D.git
cd MIDI-3D

（可选）创建一个新的 conda 环境：

conda create -n midi python=3.10
conda activate midi

安装必要的软件包（torch>2）：

# pytorch (select correct CUDA version)
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118

other dependencies

pip install -r requirements.txt

以下运行脚本将自动从VAST-AI/MIDI-3D下载模型权重到本地目录pretrained_weights/MIDI-3D。

python gradio_demo.py

结果展示

(a)展示了生成的场景与现有方法重建的场景的比较。
(b) 展示了在合成数据、真实世界图像和风格化图像上生成的结果。

论文介绍

MIDI是一种从单个图像生成组合式 3D 场景的新范式。与依赖重建或检索技术的现有方法或采用多阶段逐个对象生成的近期方法不同，MIDI 将预训练的图像到 3D 对象生成模型扩展为多实例扩散模型，从而能够同时生成具有准确空间关系和高泛化的多个 3D 实例。MIDI 的核心是采用一种新颖的多实例注意机制，可直接在生成过程中有效捕捉对象间交互和空间连贯性，而无需复杂的多步骤过程。该方法利用部分对象图像和全局场景上下文作为输入，直接在 3D 生成过程中对对象完成进行建模。

在训练期间使用有限数量的场景级数据有效地监督 3D 实例之间的交互，同时结合单对象数据进行正则化，从而保持预训练的泛化能力。 MIDI 在图像到场景生成方面展示了最先进的性能，通过对合成数据、真实世界场景数据以及文本到图像扩散模型生成的风格化场景图像的评估进行了验证。

工作原理

给定一个场景的输入图像，我们将其分割成多个部分，并使用以这些图像为条件的多实例扩散模型来生成该场景的组合 3D 实例。这些 3D 实例可以直接组合成一个场景。总处理时间只需 40 秒。

方法概述

MIDI 是一种多实例扩散模型，用于从单个图像生成场景的合成 3D 实例。基于 3D 对象生成模型，MIDI 使用权重共享 DiT 模块同时对多个 3D 实例的潜在表示进行去噪。引入多实例注意层来学习跨实例交互并实现全局感知，而交叉注意层则整合了对象图像和全局场景上下文的信息。

结论

MIDI显著推进了从单个图像生成 3D 场景的研究进程。通过将预训练的图像到 3D 对象生成模型扩展到多实例扩散模型，并结合新颖的多实例注意机制，MIDI 可以在生成过程中直接有效地捕获复杂的对象间交互和空间连贯性。这使得能够同时生成具有精确空间关系的多个 3D 实例，从而产生具有精确几何形状和空间布局的高质量 3D 场景。大量实验表明，MIDI 实现了最先进的性能，同时表现出强大的泛化能力。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

AI I024