香港科技大学、香港中文大学、商汤科技研究院提出了一个全新的基于部件的 3D 生成框架CoPart ,它能够通过
香港科技大学、香港中文大学、商汤科技研究院提出了一个全新的基于部件的 3D 生成框架CoPart ,它能够通过多个上下文部件潜在特征来表示 3D 对象,并同时生成连贯的 3D 部件。并且还发布了首个已手动标注的大规模 3D 对象部件数据集 PartVerse 。
相关链接
论文:https://arxiv.org/pdf/2507.08772 项目:https://hkdsc.github.io/project/copart 源码:https://github.com/hkdsc/copart 数据:https://huggingface.co/datasets/dscdyc/partverse
PartVerse 数据集
这是第一个经过手动注释的 大规模3D物体部分数据集PartVerse。
按照"原始数据-网格分割算法-人工后期校正"的流程,生成零件级数据。
提供部分级别的文本标题,包括外观、形状以及部分和整体之间的关系。
论文介绍
为了生成 3D 物体,早期研究主要集中于仅依赖 2D 渲染的多视图驱动方法。最近,3D 原生潜在扩散范式在 3D 生成中表现出色,因为它充分利用了地面真实 3D 数据中提供的几何信息。尽管 3D 扩散发展迅速,但它仍然面临三大挑战。首先,这些方法中的大多数都用一个潜在向量来表示 3D 物体,而不管其复杂程度如何。这在生成具有多个复杂部分的 3D 物体时可能会导致细节丢失。其次,大多数 3D 资源都是逐部分设计的,而当前的整体潜在表示忽略了这些部分的独立性及其相互关系,从而限制了模型的生成能力。第三,当前的方法依赖全局条件(例如文本、图像、点云)来控制生成过程,缺乏细节可控性。
因此,受 3D 设计师创建 3D 物体的方式启发,我们提出了一个全新的基于部件的 3D 生成框架 CoPart,它用多个上下文部件潜在信息表示 3D 物体,并同时生成连贯的 3D 部件。这个基于部件的框架有几个优点:
通过将复杂物体分解为更简单的部件来减轻其编码负担 促进部件学习和部件关系建模 自然支持部件级控制。
为了确保部件潜在信息的连贯性并利用基础模型的强大先验,我们提出了一种新颖的相互指导策略来微调预训练的扩散模型,以实现联合部件潜在信息去噪。我们为每个部件提供部件级文本说明,描述其形状、外观及其与整个物体的关系。
方法概述
CoPart 的框架:将高斯噪声添加到从 VAE 中提取的部件图像和几何标记中,然后将其输入到 3D 和 2D 降噪器中。引入相互引导 (a) 以促进 3D 和 2D 模态之间(通过跨模态注意力机制)以及不同部件之间(通过跨部件注意力机制)的信息交换。此外,(b) 将 3D 边界框视为立方体网格,并通过交叉注意力机制将提取的框标记注入 3D 降噪器。同时,这些框被渲染成 2D 图像,并通过 ControlNet 注入 2D 降噪器。
实验结果
与 SOTA 方法的定量比较。CLIP (N-T) 和 CLIP (I-T)分别衡量法线贴图与输入文本的几何对齐程度以及渲染图像与输入文本的相似度。此外论文还对 ULIP-T 进行了实验,并进行了用户偏好研究。† 当部件数量为 1 时,提出的方法耗时 12 秒。
结论
CoPart用于生成高质量且多样化的 3D 部件。利用相互引导来确保部件潜在降噪的一致性,并引入 3D 框条件来消除部件歧义。此外论文首次从 Objaverse 收集了更大规模的 3D 部件感知数据集,该数据集可广泛应用于各种任务。该方法优于 SoTA 的结果。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论