CLAY是一种大规模可控生成模型,用于创建高质量的3D资产,它结合了多分辨率变分自编码器和简化的潜在扩散变压器,通过多种输入形式生成详细的3D几何结构和物理渲染材质。
这或许是今年最值得期待的3D生成模型,号称质量最好+布线最好+支持的输入模态最多+支持材质生成。目前放出了论文和相关介绍,代码暂时还未开源,下面我们一起来学习一下吧~
相关链接
论文地址:https://arxiv.org/abs/2406.13897
项目主页:https://sites.google.com/view/clay-3dlm
代码:https://github.com/CLAY-3D/OpenCLAY(暂未开源)
论文阅读
摘要
在数字创意领域,我们凭借想象力创造复杂 3D 世界的潜力常常受到现有数字工具的限制,这些工具需要大量的专业知识和努力。为了缩小这种差距,我们引入了 CLAY,这是一种 3D 几何和材料生成器,旨在毫不费力地将人类的想象力转化为复杂的 3D 数字结构。
CLAY 支持经典的文本或图像输入以及来自各种基元(多视图图像、体素、边界框、点云、隐式表示等)的 3D 感知控件。其核心是一个由多分辨率变分自动编码器 (VAE) 和极简潜在扩散变换器 (DiT) 组成的大规模生成模型,可直接从各种 3D 几何图形中提取丰富的 3D 先验。
具体而言,它采用神经场来表示连续完整的表面,并在潜在空间中使用具有纯变换器块的几何生成模块。我们提出了一种渐进式训练方案,在通过精心设计的处理流程获得的超大型 3D 模型数据集上训练 CLAY,从而生成具有 15 亿个参数的 3D 原生几何体生成器。对于外观生成,CLAY 着手通过采用多视图材质扩散模型来生成基于物理的渲染 (PBR) 纹理,该模型可以生成具有漫反射、粗糙度和金属模态的 2K 分辨率纹理。
我们演示了如何使用 CLAY 进行一系列可控的 3D 资产创建,从粗略的概念设计到具有复杂细节的生产就绪资产。即使是初次使用的用户也可以轻松使用 CLAY 将他们生动的 3D 想象变为现实,释放无限的创造力。
方法
CLAY 框架的概述。该框架的核心是一个基于大量 3D 数据进行训练的大型生成模型,能够将文本描述转换为详细的 3D 几何图形。该模型通过基于物理的材料生成和多功能的模态自适应得到进一步增强,从而能够从各种概念创建 3D 资产并确保它们在数字环境中的真实渲染。
VAE和DiT网络设计非常简洁。DiT支持可伸缩的训练,并且VAE可以有效地跨各种几何分辨率训练。
我们的材料扩散架构和资产增强管道。我们的材料扩散网络源自现有的扩散模型,方便有效的微调。在网格剖分和绘图之后,它通过多视图方法和随后的反向投影生成纹理把它们放到UV贴图上。由此产生的材料,与几何形状和用户输入(文本/图像)紧密结合,最终在现实的渲染响应不同的照明条件。
网络在不同模式下的调节设计说明。当它们一起使用时,它们支持创建电影场景逼真的效果图。
效果展示
人类创新的进化,从原始的工具和文化文物到现代电子产品和未来的想象,由CLAY产生。
使用CLAY创建的样本,条件以天蓝色标记,输入几何形状以砂棕色标记各自的条件(如果可用)。
结论
我们提出了 CLAY,这是一种大规模 3D 生成模型,支持多模态控制,可生成高质量的 3D 资产,进一步缩小了人类生动的想象力领域与有形的数字创作世界之间的差距。通过让用户毫不费力地制作和操纵数字几何和纹理,CLAY 使专家和新手都能将抽象概念无缝转化为详细而逼真的 3D 模型,拓展了数字艺术和设计的视野。CLAY 的核心是一个由多分辨率 VAE 和 DiT 支持的大规模生成框架,可以准确描绘连续表面和复杂形状。我们已经展示了如何通过渐进式训练方案有效地将 CLAY 扩展为大型 3D 生成模型。它的成功也很大程度上归功于我们精心设计的几何数据处理管道,包括标准化的几何重新网格化协议以确保训练的一致性,以及 GPT-4V 的自动注释功能。全面的实验评估和用户研究证明了 CLAY 的有效性和适应性。其高几何质量、多样性和材料丰富性使 CLAY 成为该领域领先的 3D 生成器之一。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论