2025年7月8日星期二

腾讯3D生成模型上新!线稿可变“艺术级”3D模型,鹅厂内部设计师也在用

AI已经学会拓扑了

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

腾讯混元3D模型,又又又上新了!

这次带来的是艺术级3D生成模型Hunyuan3D-PolyGen,支持生成面数上万的复杂几何模型。

图片

而且这个模型可以把3D模型变成资产,鹅厂自己的游戏开发工作室用上之后,美术师建模效率提升了超70%。

有网友表示,AI已经学会了拓扑,自己已经很久没有对AI生成3D感到如此兴奋了。

图片

目前,模型的拓扑功能已在混元3D工作台上线,与其他功能共享每天20次的免费使用额度。

实测"艺术级"3D生成模型

美术级的模型生成和一般的3D建模,区别主要有这几个方面:

  • 面数:需要满足游戏实时加载与渲染的需求,美术Mesh相对于一般的3D生成Mesh面数更少;
  • 布线质量:后续还需要进行UV展开、骨骼绑定等环节,需要高效、规整的布线;
  • 组件式结构:美术师需要对模型进行后期编辑,需要将生成的模型拆分成组件以便后期操作。
图片

那么,混元3D的表现如何呢?来看量子位的实测。

模型的入口是混元3D平台(链接见文末)的"3D智能拓扑"功能,支持文字生成以及单张或最多四张参考图。

图片

目前,该功能支持以三角形或四边形两种形式对模型进行拓扑。

图片

第一个测试样品,是一架波音747飞机,我们选择三角面拓扑。

图片

先看大致轮廓,生成的结果是这样的:

图片

像发动机等细节部位,也进行了工整、精细的划分。

图片

第二道题,是一个毛绒玩具,这里直接拿线稿来试验。

图片

拓扑操作后,不仅原有细节得到了保留,混元3D还对物体的表面进行了更为细致的拓扑化。

图片

另外,智能拓扑也支持对现有的模型进行调整,转化成面数更低、布线更规整的"艺术级模型"。

比如这辆奔驰小轿车,原来的模型转换成白模之后是这样的:

图片

经过拓扑处理之后,不仅结构完整,线条分布整齐、疏密布局合理,车内的方向盘、座椅等内饰也都能完整呈现。

图片

总的来说,混元3D-PolyGen在基本保留物体细节特征的情况下,确实能够实现生成面数适当、布线整洁的"艺术级"3D模型。

并且根据混元3D团队发布的报告,混元3D-PolyGen相比竞品的重拓扑/AI拓扑方法,可以利用更低的面数实现更好的细节。

图片

那么,混元3D-PolyGen是如何实现的呢?

解决复杂物体建模和稳定性

目前混元3D团队还未发布混元3D-PolyGen的完整技术报告,但对其核心的原理和技术进行了简要介绍。

自回归生成框架

整体上,Hunyuan3D-PolyGen采用了自回归网格生成框架,通过顶点与面片建模进行空间推理。

具体来说,这个框架包括了三个核心环节——先把网格变成Tokens,然后交给自回归模型处理,最后再变回网格。

图片

在正式的自回归建模开始之前,Hunyuan3D-PolyGen会用点云编码器对网格进行序列化,也就是将网格的顶点和面片转化为Token序列,用以表示Mesh结构。

所谓Mesh结构就是用来表示三维物体表面的多边形网格,包含了顶点、边、面、法线等信息。

完成转换之后,Hunyuan3D-PolyGen以点云作为输入Prompt,利用自回归模型生成以Token序列形式表示的Mesh结构。

完成生成之后就是对这个Tokens序列进行解码,还原成Mesh结构,构建出3D网格。

压缩mesh结构,解决复杂物体建模

为了解决复杂物体的建模问题,混元3D技术团队自研了高压缩率mesh表征BPT

在现有的mesh自回归建模方式当中,mesh表达的冗余程度较高,仅一个面就需要用9个Token(3个顶点×3维坐标)

而自回归模型的上下文窗口有限,对两千个面以下的简单模型还可以进行建模,但对于面数更多的模型就无法建模了。

混元3D团队的思路是对mesh结构进行压缩,于是设计了高压缩率mesh表征BPT(Blocked and Patchified Tokenization)减少表达相同mesh所需的token数量

具体来说,这项技术包括block索引和patch压缩两个核心环节。

block索引是指将网格空间分成多个block,顶点的表征由(x,y,z)空间坐标转化为(block, offset)索引坐标,这样三维坐标就变成了二维,token数量可以减少三分之一。

patch压缩则是将相邻面片组成patch(一个中心顶点和边缘顶点),减少相邻面片之间共用顶点的冗余,结合共享block等技巧,token数量可进一步降低约41%。

图片

结合block索引和patch压缩,表征mesh结构的token数量可减少74%,表征一个面需要的token数量从9个减少到了平均2.3个。

所以,在相同的上下文窗口下,模型的可建模面数大幅提升,可建模的模型更加复杂(可达2w+面)、细节更多。

图片

强化学习后训练,提高生成稳定性

由于表示mesh结构的token序列很长且容错率低,造成了建模的稳定性不足,也就是同一个模型的多次生成结果可能存在很大差异。

图片

所以,混元3D团队研发了mesh自回归的强化学习后训练框架。

该框架在预训练模型的基础上进行后训练,将布线规整度、几何一致性、面片破损率等美术规范作为奖励指标,引导模型生成更好的结果。

图片

结果,混元3D-PolyGen在生成的稳定性、细节、布线质量等方面均优于目前SOTA模型。

图片

参考链接:
https://mp.weixin.qq.com/s/l12y2IPExhvz2fvUJPm-tw
体验地址:
https://3d.hunyuan.tencent.com/


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


专属AI产品从业者的实名社群,只聊AI产品最落地的真问题 图片 扫码添加小助手,发送「姓名+公司+职位」申请入群~
图片
进群后,你将直接获得:
 👉 最新最专业的AI产品信息及分析 🔍 
 👉 不定期发放的热门产品内测码 🔥
 👉 内部专属内容与专业讨论 👂


🌟 点亮星标 🌟

科技前沿进展每日见

没有评论:

发表评论

腾讯3D生成模型上新!线稿可变“艺术级”3D模型,鹅厂内部设计师也在用

AI已经学会拓扑了 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 腾讯混元3D模型,又又又上新了! 这次带来的是艺术级3D生成模型 Hunyuan3D-PolyGen ,支持生成面数上万的复杂几何模型。 而且这个模型可 以把3D模型变成资产 ,鹅厂自己的游戏开发工作...