如您有工作需要分享,欢迎联系:aigc_to_future
作者:Xinhao Yan等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2509.08643
亮点直击
X-Part,一个可控且可编辑的扩散框架,能够生成语义上有意义且结构上连贯的三维部件。 将X-Part集成到一个可编辑的部件生成流程中,该流程支持多种交互式编辑方法。 大量实验表明,X-Part在部件级分解和生成方面达到了SOTA性能。
总结速览
解决的问题
当前的3D形状生成方法在部件级别缺乏足够的可控性,且在语义上有意义的分解方面表现不佳。这限制了其在网格重拓扑、UV映射和3D打印等应用中的有效性。
提出的方案
引入X-Part,这是一种可控生成模型,旨在将整体3D对象分解为具有高几何保真度的语义上有意义且结构上连贯的部件。 设计一个可编辑的流程,用于交互式部件生成,支持多种交互式编辑方法。
应用的技术
利用边界框作为部件生成的提示,并注入逐点的语义特征以实现有意义的分解。 将X-Part集成到一个可编辑的部件生成流程中,以支持各种交互式编辑。
达到的效果
X-Part在部件级形状生成方面达到了SOTA性能。 为创建可用于生产、可编辑且结构合理的3D资产建立了新的范式。
方法
本文目标是从给定的对象点云生成高保真且结构一致的部件几何,同时确保对分解过程的灵活可控性。为此,提出了基于扩散框架的X-Part(见下图1)。首先,概述了基于vecset的3D隐空间扩散框架的基础。然后,描述了本文提出的基于边界框的部件级提示提取模块和逐点语义特征注入,再介绍了整体X-Part框架用于同步部件生成和训练方案。最后,介绍了可编辑的部件生成pipeline。
多部件隐空间扩散
语义感知形状条件
与图像条件的3D生成不同,本文以点云作为输入。为了整合整体形状信息,本文直接使用VAE编码器对输入点云进行编码,这作为对象级条件。
为了在分解过程中实现可控性,本文设计了基于边界框的部件级提示提取模块,如上图1所示,以提取部件级条件。首先,从对象点云中采样位于给定边界框内的点。然后,通过一个可学习的编码器对进行编码,形成部件级条件。此外,为了在推理过程中进一步提高对边界框扰动的鲁棒性,在训练期间对边界框应用涉及随机平移和适度缩放的增强。
此外,为了促进部件几何的更准确分解,通过将P3-SAM Ma等人(2025)编码的逐点语义特征与VAE编码器编码的形状标记连接起来来增强输入条件。增强后的对象级和部件级条件特征和定义为:
其中,表示对象级VAE编码器,而代表部件级提示提取模块中的可学习编码器。表示中提出的语义编码器。注意,为了与形状标记对齐,语义特征是通过使用形状编码器输出中的下采样XYZ位置进行插值获得的,参见上图1。为了增强对高维语义特征的鲁棒性,本文随机掩盖部分点的语义特征。
注意,当提取部件级条件时,属于其他相邻部件的点可能会被包含在某个部件的框内。然而,得益于逐点语义特征和部件间注意力,不同的部件可以相互帮助排除不属于它们自己的点。
同步部件生成
X-Part同时为整个对象的所有部件生成潜在标记,其中对象由个部件组成,每个部件由个潜在标记表示,记作。具体而言,X-Part包含多个DiT块,每个块由一个自注意力层和两个交叉注意力层组成(见上图1)。
最初,自注意力在每个部件内进行,以提供部件内的感知。然而,这会导致部件边界处的性能下降。因此,为了增强部件间的感知,本文在一半的自注意力层中扩展感受野以包含所有部件标记,这一设计选择与Lin等人(2025)一致。
其中,表示查询、键和值的投影层。表示注意力标记的隐藏维度。
然后,如上图1所示,本文通过两层交叉注意模块注入几何条件和,以提高分解的结构一致性并保留输入对象的几何细节。此外,为了增强不同部件的潜在标记之间的区别性,本文为每个单独的部件加入一个可学习的部件嵌入。具体来说,初始化一个代码簿,并在训练过程中为每个部件分配一个唯一的嵌入。注意,为了能够分解包含比数据集中单个对象的最大限制更多部件的对象,设定为一个更大的数,并随机为每个部件选择唯一的嵌入。
训练。 在前文建立的条件框架基础上,使用流匹配目标Lipman等人(2022)来训练模型,将噪声部件标记传输到目标数据分布。具体来说,在前向过程中,根据噪声水平,将高斯噪声添加到数据中,得到。模型被训练来预测速度场,将朝向移动,并以对象级条件和部件级条件为条件。训练目标被公式化如下:
其中,表示基于DiT的神经网络。鉴于单个部件的几何复杂性远低于完整对象,本文在VAE微调过程和X-Part训练过程中为每个部件分配较少的标记。这大大加快了训练和推理速度,同时保持了性能。
部件编辑
利用边界框提供的可控性和易操作性,本文进一步设计了一个部件级编辑管道,用于交互式部件生成。参考Repaint Lugmayr等人,本文采用一种无需训练的方法来实现两种编辑类型,即分割和调整。分割操作指的是分割边界框并相应地生成多个部件。调整操作意味着调整某个边界框,以便该部件和相邻部件能够相应地重新生成。具体来说,对于边界框指示的部件,其潜在标记会被重新采样和去噪,而其他部件的标记保持不变。
实验
本文首先详细介绍模型的实现,包括网络架构、超参数和训练过程。然后,本文对现有的部件生成方法进行比较评估。此外,本文进行消融研究以验证框架的设计选择。最后,本文展示了本文的方法所支持的各种下游应用。
实现细节
网络架构 DiT模块由21个DiT块组成,其中跳跃连接通过沿通道维度连接潜在特征来实现。在训练过程中,每个部件的标记数量设置为512,与VAE微调配置一致。奇数索引的自注意力层被配置为执行部件间注意力,从而增强对其他部件的感知。对于交叉注意模块,对象条件和部件条件都用2,048个标记表示,为生成过程提供详细指导。部件嵌入代码簿包含50个条目,并在训练和推理过程中随机为每个部件潜在分配一个唯一的嵌入。此外,本文在前六个网络块的线性输出层中使用专家混合(Mixture-of-Experts, MoE)模型,以有效增强潜在空间中的学习能力。
训练 本文的模型从一个预训练的对象生成器初始化,其自注意力参数作为起点。本文使用Adam优化器,学习率为,并应用最大范数为1.0的梯度裁剪以增强训练稳定性。模型在128个H20 GPU上大约训练了四天。为了进一步提高鲁棒性,本文以0.3的概率随机丢弃语义特征,并在训练期间独立地对对象条件、部件条件或两者应用0.1的丢弃概率。此外,本文通过引入从均匀分布中采样的随机平移和从区间[0.9, 1.1]中采样的缩放因子,对边界框进行数据增强。
数据集策划 使用了P3-SAM Ma等人(2025)介绍的部件数据集,该数据集包含近230万个具有真实部件分割的对象。为了创建训练对,每个对象的部件以及对象本身都被重新网格化为密闭网格。如此规模的数据集显著增强了本文基于扩散的形状分解方法的泛化能力。
比较
现有方法大致可以分为两类:3D形状分解和图像到3D部件生成。本文在两个不同层次上将本文的方法与这两类中的代表性方法进行比较:整体对象层次和分解部件层次。这种双层评估全面验证了本文的模型在部件分解和高保真几何生成方面的能力。
评估协议本文在ObjaversePartTiny数据集的200个样本上评估本文的方法,每个样本包含渲染图像和相应的真实部件几何形状。为了评估几何质量,本文采用了Chamfer距离(CD)和F-Score。F-Score在两个不同的阈值[0.1, 0.5]下计算,以捕捉粗粒度和细粒度的几何对齐。在度量计算之前,每个对象都被归一化到范围[-1, 1]。为了确保姿态无关的评估,本文将每个对象旋转[0, 90]。
3D形状分解。 该实验旨在评估和比较不同方法的几何分解能力,验证本文的方法在实现对象的更深层结构理解和分解的同时,生成更高质量的部件几何。本文方法以真实的密闭表面为输入,自动生成分解的部件;计算生成部件与真实部件之间的指标。首先与基于分割的方法进行比较,如Sampart3D和PartField,这些方法同样以相同的密闭网格为输入。分割结果直接与真实部件进行比较。此外,本文还包括生成方法,如HoloPart和OmniPart。HoloPart也使用真实的密闭点云作为输入。虽然OmniPart不直接以3D形状为输入,但它首先生成粗略几何,然后进行部件分解。为了消除分割质量的影响,用本文自己训练的分割模型替换HoloPart中使用的Sampart3D分割,并为OmniPart提供从真实部件渲染的2D部件掩码。如表1所示,基于分割的方法可以在输入的密闭表面上分解部件点,但无法生成完整的部件几何。即使在为OmniPart提供真实的2D掩码时,本文方法在分解质量上也优于所有基线。此外,如下图2所示,本文方法在生成部件的几何质量上显著超越其他方法。
图像到3D部件生成。 利用现有的图像到3D生成模型,本文将本文的方法扩展到图像到3D部件生成任务。具体而言,给定一个参考图像,本文首先使用现成的图像到3D模型生成一个密闭网格,然后将其输入到本文的管道中进行部件分解。与之前的实验类似,本文不仅将本文的方法与HoloPart和OmniPart进行比较,还与直接从图像生成部件的方法进行比较,如PartPacker、PartCrafter和Part123。OmniPart的输入设置与上述保持一致,而HoloPart和本文的方法都使用相同的生成网格作为输入。由于不同方法可能会产生不同的部件结构,使得难以与真实部件建立准确的对应关系,本文仅比较由所有生成部件组成的整体对象几何。如下表2所示,本文的方法生成的最终对象具有更高的几何质量和更好的与真实值的对齐。上图2直观地展示了本文结果的结构合理性和高质量。此外,本文的分解更加精细,通常生成更多语义合理的部件。
应用
部件编辑 由于本文的方法直接将点云和边界框作为输入,因此能够直观地控制部件分解,并促进各种部件级别的编辑操作。如下图4(a)所示,用户可以轻松调整边界框的位置和比例,以影响生成部件的几何特征。具体而言,如前文所述,部件生成可以通过多种方式进行控制:修改边界框的位置和大小会改变相应部件的形状和覆盖范围;合并相邻的边界框会将多个部件融合为一个组件;拆分边界框会将部件分解为更精细的结构。
部件感知的展开。 UV展开是3D内容创建流程中的一个重要步骤。上图4比较了整体网格和部件分解网格分别展开后生成的UV图。部件分解网格通过分别展开每个部件进行处理。将形状分解为部件大大简化了展开过程,使UV图更紧凑且在语义上更有意义。
消融研究
如下表3所示,本文进行了一系列消融研究,以验证本文提出框架中每个组件的有效性,这些组件都对模型性能的提高有所贡献。本文详细分析了各个组件的作用。部件内和部件间的注意力机制增强了部件级潜在表示的表达能力,同时保持了所有部件的全局上下文视图。部件嵌入模块在不同部件的潜在表示之间引入了独特性。对象级条件提供了关于形状整体几何的先验信息。同时,部件级条件提供了指示粗略部件位置和规模的详细信息。此外,语义点特征提供了语义线索,有助于结构一致的形状分解。本文进一步在下图5中提供了代表性结果的可视化,以说明每个组件的影响。
结论与局限性
结论
X-Part,一种纯粹基于几何的部件生成框架,以边界框为输入,将完整的3D对象分解为结构化部件。与现有方法相比,本文方法在生成部件时更好地保持了几何质量和保真度,同时更易于集成到3D内容创建流程中,从而显著降低下游任务的复杂性。此外,本文的方法允许用户通过调整边界框来改变部件分解策略,从而实现更直观的控制和灵活的编辑。为了增强模型的结构理解,结合了提供高级形状语义的语义点特征。本文方法支持生成多达50个不同的部件,足以覆盖大多数实际应用场景。
局限性
本文方法目前依赖于几何线索进行分解,缺乏物理原理的指导,这可能限制其满足某些特定应用分解要求的能力。此外,由于所有部件的潜在编码都是通过扩散模型同时处理的,推理时间会随着部件数量的增加而增加,这在处理高部件数量的对象时对实时使用构成了挑战。
参考文献
[1] X -Part: high fidelity and structure coherent shape decomposition
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论