如您有工作需要分享,欢迎联系:aigc_to_future
作者:阶跃星辰 等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2505.07747
Git链接:https://github.com/stepfun-ai/Step1X-3D
亮点直击
提出了一套全面的数据治理流程,该流程在提升生成保真度的同时,深入解析了3D资产特性。 提出了Step1X-3D,一个原生3D生成框架,实现了几何与纹理合成的解耦。该框架能够生成拓扑结构合理的网格和几何对齐的纹理,并通过图像与语义输入增强可控性。完整框架——包括基础模型、训练代码和基于LoRA的适配模块——将被开源以促进3D研究社区的发展。 Step1X-3D在资产质量上超越了现有开源3D生成方法,同时达到了与专有前沿解决方案相媲美的性能。
总结速览
解决的问题
数据稀缺性:现有开源3D数据集(如ShapeNet、Objaverse)规模有限或质量参差不齐,制约3D生成模型的训练效果。 算法局限性:3D生成涉及几何(Geometry)和纹理(Texture)的复杂耦合,现有方法在细节保留、跨视角一致性等方面表现不足。 生态碎片化:开源模型(如Trellis)泛化性差,商业模型(如Hunyuan3D)未开放训练代码,限制了可复现性和可控生成。
提出的方案
高质量数据集构建: 从500万原始资产中筛选,构建200万高质量3D数据集(含80万公开子集),标准化几何与纹理属性。 通过纹理分辨率、法线贴图精度、水密性(watertight)检测等指标严格过滤。 两阶段生成架构: 几何生成:混合VAE-DiT模型生成TSDF(截断符号距离函数),结合感知器编码(perceiver)和锐边采样保留细节。 纹理合成:基于SD-XL微调的多视角扩散模型,通过几何条件约束和隐空间同步确保跨视角一致性。 开源生态支持: 完整开源模型、训练代码及适配模块(如支持2D控制技术LoRA迁移至3D生成)。
应用的技术
几何生成: 混合VAE-DiT:3D感知器编码压缩点云至隐空间,MMDiT(FLUX架构)作为扩散主干。 细节保留:锐边采样(sharp edge sampling)和DoRA双交叉注意力机制。 纹理合成: 多视角扩散模型:输入几何渲染图(法线/位置图)约束生成一致性。 隐空间同步:在去噪过程中对齐多视角隐变量,解决遮挡问题。 后处理:Trimesh修复网格拓扑,xAtlas进行UV参数化。 2D-3D协同:支持2D控制技术(如LoRA)直接迁移至3D生成。
达到的效果
性能提升: 几何与纹理生成质量超越开源基线(如Trellis),媲美商业方案(Tripo、Rodin)。 基准测试显示SOTA结果,尤其在细节保留和视角一致性上表现突出。 可控性: 支持单视角条件生成,兼容2D适配技术(如LoRA),实现细粒度控制。 生态贡献: 开源数据集、训练框架及适配工具,推动3D生成研究的可复现性。
Step1X-3D几何生成
Step1X-3D是一种基于流的扩散模型,旨在从图像生成高保真3D形状,并支持包括文本和语义标签在内的多模态条件输入。所提出的几何生成模型建立在先前的隐空间集扩散模型(如Shape2VecSet、CLAY、Michelangelo和Craftsman3D)的基础上,利用带有修正流的隐空间集扩散框架进行3D形状生成。
本节首先介绍数据治理方法以进行预处理。接着详细描述形状VAE和扩散模型组件的架构设计。此外,受CLAY方法的启发,提出了针对3D生成的LoRA 生态系统的适配方案。所有训练代码和采样数据将公开提供,以支持研究和社区发展。
几何数据清理
近年来,多个大规模开源3D数据集相继出现,包括Objaverse、Objaverse-XL、ABO、3D-FUTURE、ShapeNet等,这些数据集总计包含超过1000万个3D资产。然而,由于这些数据大多来源于网络(尤其是庞大的Objaverse-XL数据集),其质量参差不齐。为确保数据适合训练,本文实施了一套全面的3D数据处理流程,通过彻底的预处理来筛选高质量、大规模的训练数据集。
流程包含三个主要阶段。首先,通过剔除纹理质量差、法线错误、透明材质或单一表面的资产来过滤低质量数据。其次,将非水密网格转换为水密表示,以实现正确的几何监督。第三,在表面上均匀采样点及其法线,为VAE和扩散模型训练提供全面的覆盖。通过这一全面的数据处理流程,从多个来源成功筛选出约200万个高质量3D资产:从原始Objaverse数据集中提取32万个有效样本,从Objaverse-XL中额外获取48万个样本,并结合来自ABO、3D-FUTURE以及部分内部创建数据的精选数据。
数据过滤
完整的数据过滤流程如下图3(a)所示。
纹理质量过滤:为每个3D模型渲染6张标准视角的反照率贴图。这些渲染图像随后转换为HSV色彩空间进行分析。对于每个视角,计算色调(H)和明度(V)通道的直方图。基于这些直方图,过滤掉过暗、过亮或颜色过于均匀的纹理。接着计算这6个视角的感知分数并据此排序,剔除排名最低的20%样本。 单一表面过滤:渲染6张标准视角的规范坐标图(CCM)以检测单一表面几何。检查相对视角上的对应像素是否映射到相同的3D点。如果此类像素匹配的比例超过阈值,则该物体被归类为单一表面。 小物体过滤:过滤掉目标物体在前视图中占据面积过小的数据。这发生在两种情况下:物体方向不当(例如仰卧的人体在前视图中仅可见脚部),或多物体场景中经过归一化后物体过小。计算前视图中有效alpha通道像素的百分比,并剔除覆盖率低于10%的样本。 透明物体过滤:排除具有透明材质的物体,因为这些物体通常使用alpha通道平面建模(例如树叶)。这些透明表面会导致渲染的RGB图像与实际几何之间的不对齐,从而对模型训练产生负面影响。本文的过滤方法检测并剔除Principled BSDF着色器中包含alpha通道的资产。 错误法线过滤:识别并剔除法线错误的数据,否则这些数据会在水密转换过程中产生孔洞。本文的方法在相机空间中渲染6视角法线贴图,并通过检查法线向量是否与对应相机位置形成钝角来检测错误法线。 名称和网格类型过滤:通过名称或网格类型过滤掉标记为点云的数据,因为这些扫描数据集通常包含噪声几何且难以转换为水密网格。
增强的网格到SDF转换
训练形状VAE需要水密网格以从处理后的网格中提取SDF(有符号距离函数)场,作为几何监督。CLAY引入了一种用于网格到SDF转换的"可见性检查"方法,该方法首先将空间分割为个网格。每个网格中心通过深度测试检查可见性,并使用大小为的掩码指示网格是否被视为不可见。然而,对于带有孔洞的非流形物体(如墙上的窗户),在转换后的网格内部容易遇到浮动物。为解决这一挑战,本文通过引入CraftsMan3D中的环绕数概念,实现了一种鲁棒的分类方案。环绕数是判断点是否位于形状内部或外部的有效工具。对于在体素网格内采样的每个点,计算其广义环绕数,并将值超过经验阈值0.75的点视为有效。生成的环绕数掩码随后通过逻辑与原始可见性测试结合,为MarchingCubes生成最终的占用掩码。实验结果如前图3(b)所示,该方法在Objaverse数据集上实现了20%的水密转换成功率提升。
训练数据转换
VAE数据:遵循Dora,采用锐边采样(SES)策略增强几何显著区域的点采样。将均匀采样点与从显著区域采样的额外点结合,形成最终的点集及其对应的法线,作为VAE的输入。对于几何监督,采样三组具有SDF值的点:立方体体积内的20万个点、网格表面附近阈值为0.02的20万个点,以及直接位于表面的20万个点。 扩散模型数据:为训练单图像条件流模型,从20个随机采样的视角渲染每个3D模型,相机仰角在至之间,方位角在至之间,焦距随机选择正交投影或透视投影(焦距均匀采样为35mm至100mm)。调整相机位置以确保内容占据图像约90%的面积。此外,应用常见的数据增强方法,如随机翻转(对图像和采样网格)、颜色抖动以及至之间的随机旋转。
Step1X-3D形状生成
与2D图像生成类似,Step1X-3D形状生成模块由一个形状自动编码器和一个Rectified Flow Transformer组成。对于采样的点云,首先使用形状隐空间集自动编码器将其压缩为一维张量,然后通过受Flux启发的一维Rectified Flow Transformer训练扩散模型。我们还支持LoRA等附加组件以增强灵活性。
3D形状变分自动编码器
隐空间扩散模型(LDM)的成功证明,紧凑、高效且表达能力强的表示对于训练扩散模型至关重要。因此,我们首先将3D形状编码到隐空间,然后训练一个3D隐空间扩散模型用于3D生成。遵循3DShape2VecSet的设计,本文采用潜在向量集表示将点云编码到隐空间,并将其解码为几何函数(例如符号距离场或占据场)。为了提高可扩展性,采用了近期工作[29, 95]中基于Transformer的编码器-解码器架构。此外,还结合了Dora提出的Sharp Edge Sampling和Dual Cross Attention技术以增强几何细节保留。
本文使用3DShape2VecSet的下采样变体。与可学习查询不同,直接通过最远点采样(FPS)用点云本身初始化潜在查询。我们首先将拼接的傅里叶位置编码与其法线信息整合到形状编码器中,形成编码器的实际输入:,其中是点的位置,是法线。编码器随后通过两个交叉注意力层和个自注意力层处理该输入,将点编码到隐空间:
类似地,使用基于感知器(perceiver-based)的解码器,其结构与编码器对称,并额外包含一个线性层用于学习预测点处的截断符号距离函数(TSDF)值:
其中是形状解码器中的自注意力层数。给定3D空间中的查询点和学习到的隐空间集,解码器可以输出其TSDF值。此时训练目标为:
其中是的GT TSDF值,截断比例设为。KL散度损失用于将隐空间分布正则化为标准高斯分布。随后,我们从规则网格采样查询点获取对应TSDF值,并通过Marching Cubes算法重建最终表面。同时采用Hierarchical Volume Decoding加速推理过程,详见3DShape2VecSet和Dora。
Step1X-3D扩散主干网络
基于文本到图像扩散模型FLUX的先进架构,采用相同MMDiT结构但适配1D隐空间处理(下图4)。双流块中隐空间token与条件token通过独立QKV投影和MLP处理,但仍通过交叉注意力交互;单流块则合并两类token并采用并行空间/通道注意力机制联合处理。这种混合架构在保持跨模态交互效率的同时实现灵活特征学习。由于ShapeVAE的隐空间集表示缺乏显式空间对应关系,移除了隐空间集的位置编码,仅保留时间步嵌入进行调制。对于单图像条件生成,采用带registers的DINOv2大型图像编码器,从预处理后的518×518分辨率图像(背景去除/物体居中/白底填充)提取条件token,并拼接CLIP-ViT-L/14特征以融合语义与全局特征,最终通过并行交叉注意力机制注入各流块。
更灵活的3D生成控制
基于VAE+D扩散框架的结构优势(与文本到图像架构兼容),实现了2D可控生成技术(如ControlNet、IP-Adapter)与LoRA等高效参数适配方法向3D网格合成的迁移。参考CLAY的ControlNet-UNet组合探索,在Step1x-3D框架系统化实现这些控制机制。为高效引入条件信号,可采用ControlNet式条件分支或LoRA:当前开源阶段通过标签几何属性(对称性/细节层次)训练LoRA模块实现轻量化域适应,该模块仅作用于条件分支。后续计划扩展骨架/边界框/标题/IP图像等条件微调。
训练Rectified Flow模型
采用流匹配目标构建高斯噪声与数据分布间的概率路径,Rectified Flow通过直接预测速度场实现线性采样机制。基于SD3的logit-normal采样策略,我们针对性增加中间时间步的采样权重,因其在速度场预测中更具挑战性。最终目标函数为:
其中表示条件信号,采用自适应时间步加权方案。为进一步稳定训练,引入了指数移动平均(EMA)策略,衰减率为0.999,以平滑参数更新。训练分为两个阶段:初始阶段为了快速收敛,使用512的隐空间集大小、1e-4的学习率,在96块NVIDIA A800 GPU上以1920的批量大小进行100k次迭代;随后为提升模型容量和精度,将隐空间集大小扩展至2048,学习率降至5e-5,批量大小减半至960再进行100k次迭代,确保在高维数据空间中鲁棒适应的同时保持计算效率。
Step1X-3D纹理生成
通过Step1X-3D框架生成未贴图的3D几何后,纹理合成通过多阶段流水线完成(如图5)。首先对原始几何进行后处理以保证拓扑一致性和结构完整性;接着准备纹理生成所需的3D资产;然后基于高质量3D数据集微调多视角图像生成模型,通过法线和位置图引入几何引导;最后将生成的多视角图像超分辨率至2048×2048再进行UV烘焙,并通过修复完成纹理贴图。
几何后处理
为实现高保真纹理贴图,对几何生成流程输出的网格进行后处理。优化过程主要使用trimesh工具包:首先验证初始网格的密闭性,检测到非流形几何时实施孔洞填充算法;随后执行重网格化操作,将每个三角面细分为四个子面并施加拉普拉斯表面平滑约束,该过程确保拓扑均匀分布并最小化UV接缝瑕疵;最后利用xAtlas参数化框架生成优化UV坐标并集成到最终网格表示中。此系统化优化流程为后续纹理映射提供几何鲁棒性保障。
纹理数据集准备
相比几何生成,纹理生成组件不需要百万级训练样本,但对纹理质量和美学指标要求更高。基于清洗后的320K Objaverse数据集,进一步筛选30K 3D资产用于多视角生成模型训练。具体使用Blender渲染每个对象的六视角(前、后、左、右、顶、底)图像,同步输出768×768分辨率的反照率、法线图和位置图。
几何引导的多视角图像生成
单视角到多视角生成 给定单视角图像和目标多视角相机位姿(条件定义为),通过扩散模型生成一致的多视角图像。具体将单视角到多视角的扩散过程建模为:
其中是多视角随机噪声。采用预训练的MV-Adapter作为主干网络,生成768×768分辨率且具有更高一致性的多视角图像。该架构具备两大优势:一是通过内存高效的极线注意力机制实现高分辨率生成,在训练过程的批量大小限制下仍能产出768×768图像;二是保留SD-XL原始空间自注意力参数的同时引入三重并行注意力架构,同步处理泛化能力、多视角一致性和条件遵循,在保持基础模型特性与获取专项生成能力间达到最优平衡。
几何引导的生成
为上述未贴图3D网格生成合理精细的纹理,在多视角生成过程中除单视角输入条件外,通过注入几何信息以增强细节合成及纹理与网格表面的对齐精度。具体引入两类几何引导:法线图和3D位置图。法线图保留物体细粒度几何细节,3D位置图则通过全局世界坐标系下的三维坐标一致性确保不同视角间纹理与网格顶点的空间对应关系。这些几何特征经图像编码器编码后,通过交叉注意力机制注入主干生成模型,在保持生成模型感知连贯纹理能力的同时实现显式几何条件控制。
纹理域的多视角同步尽管跨视角注意力和双重几何条件项已实现令人满意的多视角一致性,但图像空间与UV空间的本征差异仍会导致合成纹理出现局部模糊和接缝不连续等问题。为此在推理阶段扩展MV-Adapter框架,引入纹理空间同步模块。不同于MVPaint和SyncMVD等文本到多视角方案——它们回避了输入条件图像与输出多视角图像间风格参考(sref)和内容参考(cref)的显式建模——本文的方法无需辅助精炼管线(如带ControlNet的Stable Diffusion)即可实现多视角同步。该设计基于两点考量:1)生成器在96×96潜在分辨率下运行,经验证已具备充足纹理表征能力;2)统一隐空间中的联合优化天然保持跨视角纹理连贯性。因此我们仅通过单一扩散模型主干内的隐空间对齐实现纹理同步,在保证视觉保真度的同时提升参数效率。
为预测多视角潜在输出,我们将各视角隐空间表示通过UV映射函数反投影至纹理空间,继而通过融合多视角并依据射线方向与像素法线图的余弦相似度加权,获得同步纹理。随后通过UV光栅化函数投影得到同步隐空间表示。整个去噪步骤的数学表述如下:
纹理烘焙
遵循传统纹理烘焙流程,本文对物体的多视角投影实施标准纹理处理操作,并复用Hunyuan3D 2.0的纹理烘焙工具。首先将多视角图像超分辨率至2048×2048,随后逆投影至纹理空间。由于遮挡和多视角不一致性,该过程不可避免会引入UV映射纹理中的断裂和孔洞等伪影。为此,通过迭代优化实现连续性感知的纹理修复,确保整个表面无缝的纹理合成。此后处理阶段有效解决了拓扑歧义性,同时保留了光真实感渲染所需的高频纹理细节。
实验
本节全面评估Step1X-3D的生成性能。首先详细展示其基于单张输入图像生成几何与纹理的能力;接着验证模型的灵活性与可控性;最后将Step1X-3D与开源(Trellis、Hunyuan3D 2.0、TripoSG)和商用方案(Meshy-4、Tripo-v2.5、Rodin-v1.5)在定量指标、用户研究和视觉质量三个维度进行系统对比。
Step1X-3D生成资产的视觉质量
为评估Step1X-3D,图6和图7分别展示几何与纹理维度的生成结果。为突出几何细节,渲染生成网格的多视角法线图进行3D几何可视化。如下图6所示,第1、6列为输入图像,其余列为不同物体的多视角表现。测试对象涵盖多种风格(卡通、素描、照片级)、几何复杂度(平面、空心结构、细节丰富物体)和空间配置(单物体与多物体组合)。面对多样化输入,Step1X-3D几何生成模型不仅保持3D网格与输入图像的高度相似性,还能为遮挡区域重建合理的空间结构与几何细节。这些结果证明了我们专门设计的3D扩散模型与VAE架构的关键作用,以及大规模高质量训练数据对泛化能力的显著提升。
下图7进一步通过带纹理3D网格的多视角渲染展示纹理生成能力。纹理生成模型在各类输入风格下产出风格一致的纹理,同时高度还原输入图像的纹理细节。对于输入图像的遮挡区域,通过保留SD-XL原始参数并引入目标模型法线图与位置图作为几何引导,Step1X-3D实现了具有优秀多视角一致性和精准几何-纹理对齐的合理视角补全。综上,Step1X-3D生成的3D几何兼具合理性与丰富纹理,最终带纹理网格在内容与风格上与输入条件图像高度匹配。
基于LoRA微调的高可控3D生成
在基于单图条件进行网格重建的预训练几何生成模型基础上,无缝集成LoRA微调以实现对多样化3D生成模型的灵活控制。本实验聚焦实际用户需求,专门设计两种几何控制策略:对称性操纵和层级几何细节调整。为实现控制,我们收集约30,000个3D模型,并利用Step1O多模态模型基于(1)对称属性和(2)几何细节层级(锐利、普通、平滑)进行标注。图8和图9展示了高可控3D生成结果。为更好捕捉3D网格的几何细节,我们采用多视角法线图进行几何表征。
下图8展示使用"对称"/"非对称"标注的几何生成结果。第1列为输入图像,2-5列展示对称条件标注生成的3D物体四视角(前、后、左、右)结果,6-9列呈现非对称条件的对应结果。生成物体始终遵循控制指令,尤其在前/后视图中表现显著。下图9详细展示几何细节的层级控制,从左至右依次为输入图像、"锐利"、"普通"、"平滑"标签的生成结果,每个物体通过前、右、后视图的法线图呈现。与先前结果一致,生成物体严格遵循对应控制标签,进一步验证了Step1X-3D微调技术的有效性及其几何生成模型的强泛化能力。
与SOTA方法的对比结果
为验证Step1X-3D的有效性,本文与现有SOTA方法进行全面对比,包括开源方案(Trellis、Hunyuan3D 2.0、TripoSG)和商用系统(Tripo-v2.5、Rodin-v1.5、Meshy-4)。具体实施:(1)使用几何与纹理指标的定量评估;(2)通过主观评分进行3D感知质量的用户研究;(3)多样化输入条件下几何与纹理结果的视觉对比。
跨SOTA方法的定量比较与用户研究
除多样化输入条件的视觉对比外,本文构建了包含110张真实场景图像的基准数据集。该基准包含:(1)来自各3D生成平台(如Tripo、Rodin等)的示例图像;(2)Flux模型生成的覆盖COCO数据集80个类别的图像。基于此测试集,我们系统收集了各方法生成的3D资产用于定量评估与主观用户研究。
本文同样为几何和纹理维度设计了定量评估指标。在几何评估方面,利用自监督多模态模型对输入2D图像与生成3D点云(从输出网格中提取)进行特征匹配。为确保全面公平的比较,采用两种不同的多模态框架进行特征提取:Uni3D和OpenShape,以余弦相似度作为相似性度量。对于采用自监督范式的OpenShape框架,分别以SparseConv和PointBERT作为骨干架构,最终得到三个评估图像-几何对齐的独立指标:Uni3D-I、OpenShapesc-I和OpenShapepb-I,分数越高表明与输入图像的几何一致性越好。纹理评估方面,采用CLIP-Score衡量语义对齐性,具体方法是从带纹理的3D模型在30°仰角和{0°,90°,180°,270°}方位角下渲染多视角图像,用于与输入图像的语义一致性评估。定量结果如下表1所示,最高分与次高分已标出。Step1X-3D在CLIP-Score上取得最高分,并在几何-语义匹配指标中获得多个次高排名,这些优势进一步证明了Step1X-3D强大的生成能力。
本文开展了包含20名参与者的用户研究,评估全部110张未筛选测试图像。针对3D模型的评估标准包括:(1)几何合理性,(2)与输入图像的相似度,(3)纹理清晰度,(4)纹理-几何对齐度。参与者采用5级李克特量表(1:最差质量,5:最佳质量)对每个对象评分。如下图10所示,Step1X-3D与当前最佳方法表现相当。但值得注意的是,所有评估算法仍远未达到理论上限,表明在达到生产级质量前仍有巨大改进空间。这些发现强调了在3D研究社区开展开源协作以共同推动技术进步的重要性。
跨SOTA方法的视觉对比
下图11与图12展示了不同方法的几何与纹理输出对比结果。不同于以往的视觉比较,通过统一评估协议解决生成3D网格的位姿不一致问题:(1)在Unreal Engine中对未贴图和带纹理模型进行位姿归一化对齐,(2)将多个物体合成单张渲染图像以便直接对比。这种标准化方法表明,Step1X-3D相对于现有最佳方法具有相当或更优的表现。
结论
Step1X-3D通过引入开源高保真框架实现几何与纹理合成的解耦,推动了3D生成技术的进步。经过严格的数据筛选(200万资产)和混合VAE-DiT架构,该方法在实现优异结果的同时支持2D到3D的控制迁移。
参考文献
[1] Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论