2025年10月27日星期一

SIGGRAPH Asia 2025 I InfiniHuman:精确控制高保真3D虚拟形象生成,质量、速度、可控性新SOTA!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

图片

已有的问题

  • 训练 3D 人体生成模型需要大规模、多样化且注释丰富的数据集!
  • 捕获和注释真实人类数据的成本极其高昂,而且规模和多样性受到限制!

能否提炼基础模型来生成理论上无界且注释丰富的 3D 人体数据?

论文推出了InfiniHuman框架,该框架提炼基础模型,以最低成本和无限可扩展性生成注释丰富的人体数据。InfiniHumanData管道自动创建111K 个身份,这些身份在种族、年龄和服装风格方面具有前所未有的多样性,每个身份都带有文本描述、多视图图像和 SMPL 身体参数注释。基于此,InfiniHumanGen能够根据文本、体形和服装资产快速、逼真且精确可控地生成虚拟形象。

关键见解

  • InfiniHumanData:自动管道提取视觉语言和图像生成模型 =>具有多粒度注释的 111K 个不同身份
  • 质量与真实扫描无法区分:用户无法分辨我们的合成数据和真实扫描渲染之间的区别!
  • InfiniHumanGen:基于 InfiniHumanData 训练的基于扩散的生成模型 =>通过文本、服装、体形和姿势快速、逼真且可精确控制的 3D 人体生成。

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/pdf/2510.11650
  • 项目:https://yuxuan-xue.com/infini-human
  • 代码:https://github.com/YuxuanSnow/InfiniHuman

unsetunset论文介绍unsetunset

图片
  • 论文名:InfiniHuman:通过精确控制创造无限的 3D 人体

由于捕获和注释大规模数据集的成本过高,生成多样化且可控的 3D 人体虚拟形象具有挑战性。我们推出了InfiniHuman框架,该框架提炼基础模型,以最低成本和无限可扩展性生成注释丰富的人体数据。我们的InfiniHumanData管道自动创建111K 个身份,这些身份在种族、年龄和服装风格方面具有前所未有的多样性,每个身份都带有文本描述、多视图图像和 SMPL 身体参数注释。基于此,InfiniHumanGen能够根据文本、体形和服装资产快速、逼真且精确可控地生成虚拟形象。

unsetunset方法概述unsetunset

图片InfiniHumanData 数据生成框架概览。该流程利用基础模型实现完全自动化。所需输出已用以下标记标记:A) 结构化文本描述;C) 服装款式图像;E) SMPL 格式的体形数据(包含面部和手部关键点);F) 适用于 3D 提升的受控光照条件下的正交多视角图像。图片Gen-Schnell 以文本描述、明确的 SMPL 形状和布料图像作为输入,端到端生成 3D-GS,而 Gen-HRes 生成高分辨率纹理网格,两者都与输入条件相匹配。

图片Gen-HRes 中的细粒度文本可控性涵盖 (a) 整体主体身份,例如种族、年龄、性别等。通过固定初始高斯噪声, Gen-HRes 可以生成 (b) 具有不同细节配饰外观的相同身份,例如手表、眼镜和佩戴资产的颜色。

unsetunset实验结果unsetunset

图片定量比较结果。我们报告了用户研究结果, 包括外观质量和文本对齐,其中大多数参与者更喜欢我们的方法。 此外,我们还在 CLIP 和 FID 等 T2I 指标上取得了 SOTA 的成绩。图片生成具有精确姿势形状控制和基于文本编辑功能的虚拟人物。在形状和基于文本的编辑过程中,身份信息得以保留。

图片
图片

unsetunset结论unsetunset

InfiniHuman是一个用于生成逼真且高度可控的 3D 虚拟形象的全新框架。为了克服带注释的人体数据稀缺且价格昂贵的根本挑战,论文开发了一个全自动数据生成框架,该框架重新利用了多个预训练的基础模型。这使得 InfiniHumanData 得以创建,这是一个包含 11.1 万个不同身份和全面控制信号的大规模、带丰富注释的数据集。

InfiniHumanGen 框架实现了快速、高保真度的虚拟形象合成,并具有前所未有的细粒度控制能力,使用户能够通过直观的多模态输入指定外观、形状、姿势和服饰。大量实验表明,InfiniHuman 不仅在视觉质量和速度方面优于先前的方法,而且还为 3D 人体生成中精确的属性级可控性树立了新的标准。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

美团视频生成模型来了!一出手就是开源SOTA

可稳定输出5分钟级别的长视频 一水 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 美团,你是跨界上瘾了是吧!(doge) 没错,最新开源SOTA视频模型,又是来自这家"送外卖"的公司。 模型名为 LongCat-Video ,参数13.6B,支持文...