AI I024: 单图生成3D头像+AI编辑+多模态驱动？阿里LAM让虚拟人“活”了！

2025年5月17日星期六

单图生成3D头像+AI编辑+多模态驱动？阿里LAM让虚拟人“活”了！

LAM 是一个能从一张图片中一次前向推理重建可动画3D高斯人头的模型，不依赖多视角训练或额外渲染网络，支持跨平

LAM 是一个能从一张图片中一次前向推理重建可动画3D高斯人头的模型，不依赖多视角训练或额外渲染网络，支持跨平台、低延迟、实时渲染，是虚拟人、AI聊天头像与AIGC人物生成的重大突破。特点总结如下：

从一张图片创建超逼真的 3D 头像
在任何设备上进行超快速跨平台动画和渲染
用于实时交互式聊天头像的低延迟 SDK

一次性前馈高斯头像重建与动画

文本生成

使用LAM可以通过现有的文本到图像生成流程从生成的图像中重建 3D 高斯头像，并使用不同的驱动表达式为其添加动画。

编辑

与以前的 3D 编辑框架需要对多视图图像进行迭代训练以进行风格化不同， LAM可以利用 2D 编辑先验模型在 2D 图像中编辑头像，然后将其提升到 3D 高斯空间，从而有效地编辑 3D 高斯头像的不同风格。

跨平台的实时动画和渲染

LAM只需在一秒钟内通过单次前向传播，即可创建可动画化的高斯头部，并生成一次性拍摄的图像。重建的 3D 高斯头像可在包括手机在内的各种平台上实时重现和渲染。

论文介绍

LAM是一种创新的大型头像模型，用于从单幅图像重建可动画的高斯头部。与以往需要在捕获的视频序列上进行大量训练或在推理过程中依赖辅助神经网络进行动画和渲染的方法不同，该方法可以生成可立即动画化和渲染的高斯头部。

具体来说，LAM 只需一次前向传播即可创建可动画化的高斯头部，无需额外的网络或后处理步骤即可进行重现和渲染。此功能可无缝集成到现有的渲染管线中，确保在包括手机在内的各种平台上实现实时动画和渲染。

框架的核心是典型高斯属性生成器，它利用 FLAME 的典型点作为查询。这些点通过 Transformer 与多尺度图像特征交互，从而准确预测典型空间中的高斯属性。重建的典型高斯头像可以像 FLAME 模型一样，利用标准线性混合蒙皮 (LBS) 和校正混合形状进行动画制作，并在各种平台上实时渲染。实验结果表明，LAM 在现有基准上的表现优于最先进的方法。

方法概述

总体框架。LAM利用附加到 FLAME 顶点的可学习查询特征，与提取的多级图像特征进行交叉注意。然后，对提取的特征进行解码，在正则空间中重建高斯化身。该化身可以像 FLAME 模型一样，利用标准线性混合蒙皮 (LBS) 和校正混合形状进行动画制作，并在各种平台上实时渲染。

实验结果

结论

论文提出了一种新颖的大型头像模型LAM，用于一次性生成可动画的高斯头部。该框架的核心是经典的高斯头像生成Transformer。利用点云表示来充分利用FLAME中预先存储的形状信息；在多尺度图像特征上构建堆叠的交叉注意力模块，以实现更好的纹理和形状重建；并在统一的经典空间中生成具有相同表情和姿势的高斯头像，以降低重建复杂性。LAM可以生成可无缝集成到现有渲染管线中的高斯头像，以便在包括手机在内的各种平台上进行实时动画和渲染。此外还引入了一个高效的流程，用于从文本到可动画的高斯头像生成，以及一个用户友好的流程，用于在给定单个图像的情况下编辑高斯头像风格。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024