浙江大学CAD&CG国家重点实验室等机构在SIGGRAPH Asia 2025上开源Fuse3D,一种多图融合的3D生成方法。通过多条件融合模块和局部注意力增强,实现从全局视图到局部细节的多级区域控制,精准生成高质量3D资产。纯前向推理,单张NVIDIA A6000显卡生成时间不到20秒。适合3D生成研究、游戏资产生成和工业设计等场景。
Tags:
在3D生成技术日益成熟的今天,如何实现更加精准、可控的3D资产生成成为了行业关注的焦点。近日,浙江大学CAD&CG国家重点实验室等机构联合提出了Fuse3D,这一创新方法通过多图融合技术,为3D生成领域带来了新的突破。该方法能够利用多幅图像控制生成3D模型,实现从全局视图到复杂局部细节的多级区域控制的无缝融合。Fuse3D 可以灵活地将多个 2D 图像区域融合为连贯的 3D 结构,从而生成高质量的 3D 资产。
相关链接
论文:https://arxiv.org/html/2602.17040v1 主页:https://jinnmnm.github.io/Fuse3d.github.io 源码:https://github.com/JINNMnm/Fuse3D
论文介绍
Fuse3D的论文详细阐述了如何通过多图融合技术,实现3D资产的精准可控生成。该方法不仅解决了传统单图生成框架在局部替换和精确纹理结构还原上的不足,还通过纯前向推理的方式,大幅提升了生成效率,为3D生成领域带来了新的可能性。
方法概述
多条件融合模块(MCFM) Fuse3D的核心创新点之一在于其多条件融合模块(MCFM)。该模块通过保留整体图像的上下文信息,仅在Token层面进行筛选,避免了直接抠图导致的全局上下文丢失问题。具体来说,Fuse3D将每张局部条件图像完整输入给DINOv2模型,提取特征后,根据用户画的2D遮罩,精准挑出落在遮罩范围内的对应Token,形成统一的条件Token。这一设计保留了DINOv2预训练时的空间推理能力,为后续生成提供了丰富的上下文信息。
3D语义感知对齐(3D Semantic-Aware Alignment) 如何将2D特征Token准确映射到3D空间的正确体素上,是Fuse3D面临的另一大挑战。为此,研究团队提出了3D语义感知对齐策略,利用TRELLIS模型内部的交叉注意力层,自动学习2D图像内容与3D体素位置的映射关系。通过前向对齐和反向对齐两个步骤,Fuse3D能够精准定位局部特征在3D空间中的位置,并确保全局和局部特征互不干扰。
局部注意力增强(Local Attention Enhancement) 为了防止不同区域特征在边缘发生“串味”,Fuse3D引入了局部注意力增强矩阵。该矩阵通过调整注意力映射表的权重,增强局部特征的控制力,确保不同特征在对应3D体素上占据主导地位。这一设计有效解决了特征冲突问题,提升了生成结果的准确性和稳定性。
实验
实验设置
为了验证Fuse3D的有效性,研究团队进行了多项实验。实验中,Fuse3D与IP-Adapter + TRELLIS、Blended Diffusion + TRELLIS等组合方案进行了对比。同时,还采用了CLIP相似度、ImageReward以及GPTEval3D等评估指标,从多个维度对生成结果进行了全面评价。
实验结果
实验结果表明Fuse3D在各项评估指标上均表现出色。在区域一致性、视觉无缝感、编辑可控性等关键指标上,Fuse3D均大幅领先其他组合方案。特别是在处理复杂场景和局部细节时,Fuse3D能够更锐利地保持局部特征的确切几何形状与纹理,而不发生糊化现象。此外,Fuse3D还具备极高的生成效率,单张NVIDIA A6000显卡下整个生成过程不到20秒,远超传统SDS优化方法。
结论
Fuse3D作为一种创新的多图融合3D生成方法,通过多条件融合模块、3D语义感知对齐和局部注意力增强等核心技术创新,实现了3D资产的精准可控生成。该方法不仅解决了传统单图生成框架在局部替换和精确纹理结构还原上的不足,还通过纯前向推理的方式大幅提升了生成效率。未来,随着技术的不断发展和完善,Fuse3D有望在游戏资产管线、电商展示和工业设计等领域发挥重要作用,推动3D生成技术的进一步普及和应用。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论