2025年11月3日星期一

从平面走向3D!中科大提出Pro3D-Editor,渐进式3D编辑新范式实现三维全视角精准一致

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:Yang Zheng、Zhendong Mao等

解读:AI生成未来
图片

论文链接:https://arxiv.org/pdf/2506.00512 
代码链接:https://github.com/shuoyueli4519/Pro3D-Editor-Code 
项目网页:https://shuoyueli4519.github.io/Pro3D-Editor 

图片

亮点直击

  • 提出了渐进式视图编辑范式,将编辑信息从编辑显著视图投影到编辑稀疏视图上,解决了多视图编辑时特征不一致的问题。
  • 基于提出的范式设计了3D物体编辑框架Pro3D-Editor,实现了一致且精确的3D物体编辑。
  • 在3D物体编辑任务上表现突出,编辑质量及编辑准确性优于现有方法。

总结速览

效果对比

图片

图片
图片

图片
图片
图片

解决的问题

  • 编辑一致性问题:在多视图引导的3D编辑范式中,多视图之间容易出现编辑特征不一致的情况,限制了3D物体的编辑质量。
  • 编辑准确性问题:现有的方法对所有视图采用同一编辑文本进行编辑引导,忽略了不同编辑指令所引发的差异化跨视图依赖关系,难以准确编辑同一块3D区域。

提出的方案

  • 根据Multi-view Diffusion model(I2MV)结构而精心设计了LoRA变体(MoVE-LoRA),通过原物体的渲染多视图对MoVE-LoRA进行微调,实现了多视图之间的一致性的编辑。
  • Primary-view Sampler模块通过计算相似性分数挑选出编辑最显著的主视图,然后通过Key-view Render模块将主视图的编辑信息投影到其余关键视图以实现一致且准确的多视图编辑,最后通过Full-view Refiner模块完成多视图引导下的3D编辑。

应用的技术

  • 设计渐进式视图编辑范式,实现3D物体的精准区域编辑。
  • 基于I2MV模型MV-Adapter设计了MoVE-LoRA微调方法,实现多视图一致性编辑。
  • 修改GaussianObject方法使其支持3D物体编辑。

达到的效果

  • 在3D物体区域编辑测试中,Pro3D-Editor在编辑准确性和一致性上均优于现有方法。
  • 显著减少了多视图编辑时编辑特征不一致的情况,提高了3D物体编辑的质量。
  • 在3D物体编辑任务上实现了局部编辑的效果,并不局限在3D物体全局编辑的形式上。
图片

方法

渐进式视图编辑范式

图片

现有的多视图引导下的3D编辑范式忽略了不同编辑指令所引发的差异化跨视图依赖关系,难以在多视图层面做到准确且一致的多视图编辑,这种多视图层面的特征不一致最终导致了编辑出的3D物体质量下降。
为了克服这一问题,论文提出了渐进式视图编辑范式,分为三个阶段:

  • 主视图采样(Primary-view Sampler)
    1.目标:从渲染出的多张视图中筛选出编辑信息密度最高的视图作为主视图。
    2.方法:计算编辑文本与所有视图间的相似度分数,其中需加入一项惩罚项。该惩罚项用于应对 I2MV 基模生成视图视角不均匀的问题。
图片
  • 关键视图渲染(Key-view Render)
    1.目标:根据上一步采样出的主视图和选择的关键视角进行多视图一致性编辑。
    2.方法:在I2MV模型的multi-view attention结构上加入LoRA变体,使用原多视图进行微调,最后使用编辑好的主视图进行引导,实现多视图的一致性编辑。
    3.效果:通过这一个阶段,模型能够输出一致且准确的编辑后多视图。

  • 全局视图细化(Full-view Refiner)
    1.目标:根据上一步编辑出的多视图对已有的3D物体进行迭代式编辑。 
    2.方法:先使用编辑后的多视图对3D物体进行初步迭代编辑,然后使用渲染出的视图和编辑多视图作为输入对ControlNet模型进行微调,用于细化任意渲染出的视图,最终完成对整个3D物体的细化编辑。

MoVE-LoRA

将LoRA加在I2MV模型的multi-view attention层上容易导致学习到的原多视图特征之间发生纠缠,无法将主视图上的编辑信息准确投影到其余关键视图上。

基于此,论文提出了Mixture-of-View-Experts Low-Rank Adaption(MoVE-LoRA),所有视图共享同一个Low Rank矩阵A来捕捉主视图的特征,矩阵A只使用主视图的梯度进行更新,Low Rank矩阵B用于学习从主视图到各个关键视图的特征投影,通过这种方式来做到主视图编辑特征的准确投影。

图片

实验结果

实验设置

  • 训练设置:基于MV-Adapter I2MV模型,使用MoVE-LoRA的秩为32进行训练,batch size为1,训练800 steps;基于ControlNet模型,使用LoRA的秩为64进行训练,学习率为1e-3,训练1800steps。
  • 评估指标:使用FID、PSNR、LPIPS和FVD指标评估编辑质量,使用CLIP-T和DINO-I指标评估编辑准确性。

结果

  • 定性指标:Pro3D-Editor在编辑3D物体的编辑准确性和一致性方面显著优于其它方法,能够做到精确且一致的3D物体局部编辑。
图片
  • 定量指标:在3D物体局部编辑任务上,相比与baselines的方法,Pro3D-Editor 在编辑质量(LPIPS)上提升 47.4%、在编辑准确性(DINO-I)上提升 9.7%。此外,Pro3D-Editor的编辑结果更大概率地被GPTEval3D认为是更优的。
图片
图片
  • 消融实验:论文充分验证了渐进式视图编辑范式和其中三个模块的有效性,移除这些模块,性能显著下降。
图片
图片
图片

结论

论文提出了一种新的渐进式视图编辑范式,以实现一致且精准的文本引导的3D物体编辑。具体而言,论文设计了对应的方法 Pro3D-Editor,该方法会动态编辑编辑显著性最高的视图,并将其编辑语义精准且一致地传递到其他关键视图。大量实验表明,Pro3D-Editor在特征一致性和编辑准确性上均优于现有方法,展现出在3D资产编辑应用中的巨大潜力。

参考文献

[1] Pro3D-Editor: A Progressive-Views Perspective for Consistent and Precise 3D Editing

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码免费加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

疯了!Claude Code v2。1 狂更50+项,这才是开发者该有的效率神器!

终于来了 昨天发了一篇 DeepSeek V4春节突袭!编程能力碾压Claude,全球代码圈要变天? 这不Claude Code v2.1就 来了。不过就算CC再升级,也不影响deepseek的王者地位。 大家好,我是指挥官,专注用AI工具提高工作效率,欢迎关注公众号,有福利...