论文名:FACESHOT: BRING ANY CHARACTER INTO LIFE
论文链接:https://arxiv.org/pdf/2503.00740
开源代码:https://faceshot2024.github.io/faceshot/
导读
我希望我的玩具能说话"——许多人在生日或圣诞节时会许下这样的愿望,希望能得到他们"想象中的朋友"的陪伴。要实现这一点通常需要一点"魔法",就像《TED》里会说话的泰迪熊,或者《艾尔文与花栗鼠》里的三只花栗鼠一样。在这些作品的背后,要让这种"魔法"成为现实,通常需要专业设备,并在角色建模和绑定方面投入大量的人力。在这项工作中,为了让每个人都能让任何角色鲜活起来,我们提出了一个新颖的、无需训练的肖像动画框架。如图1所示,即使是与人类面部外观截然不同的表情符号和玩具,我们提出的框架在让这些角色鲜活起来方面也表现出色。
简介
在本文中,我们提出了面部驱动(FaceShot),这是一个新颖的无需训练的肖像动画框架,旨在无需微调或重新训练,就能从任何驱动视频中让任何角色鲜活起来。我们通过外观引导的地标匹配模块和基于坐标的地标重定向模块提供精确且鲁棒的重定位地标序列来实现这一目标。这些组件共同利用潜在扩散模型的强大语义对应关系,为各种类型的角色生成面部运动序列。之后,我们将地标序列输入到预训练的地标驱动动画模型中以生成动画视频。凭借这种强大的泛化能力,面部驱动可以打破任何风格化角色和驱动视频在真实肖像地标检测方面的限制,显著扩展肖像动画的应用范围。此外,面部驱动与任何地标驱动动画模型兼容,显著提高了整体性能。我们在新构建的角色基准测试集CharacBench上进行的大量实验证实,在任何角色领域,面部驱动始终优于最先进(SOTA)的方法。
方法与模型
FaceShot的框架如图3所示。
图3:FaceShot框架首先通过外观引导为参考角色生成精确的面部特征点。接下来,基于坐标的特征点重定向模块根据驱动视频生成特征点序列。最后,将该序列输入动画模型以使角色动起来。
1 预备知识
在FaceShot中,我们使用稳定扩散(SD)(Rombach等人,2022年)作为特征点匹配的基础模型,它由变分自编码器(VAE)(Kingma,2013年)、CLIP文本编码器(Radford等人,2021年)和去噪U - Net(Ronneberger等人,2015年)组成。与基于像素的扩散模型相比,SD使用VAE编码器 将输入图像 编码为潜在表示 。然后VAE解码器 通过解码潜在表示来重建图像: 。
为了训练去噪U - Net ,目标通常是最小化每个时间步 的均方误差(MSE)损失 ,如下所示:
其中 是时间步 时的含噪隐变量, ,且 表示前向过程的方差。 表示添加的高斯噪声, 是文本条件,由 U 型网络(U-Net)的交叉注意力模块处理。
此外,去噪扩散隐式模型(Denoising Diffusion Implicit Model,Song 等人,2021a)(DDIM)能够以确定性的方式将隐变量 反演为 。公式如下:
其中 表示额外的图像提示。在我们的实现中,我们利用 DDIM 反演得到的 U 型网络(U-Net)在第 个时间步和第 层的隐空间特征进行关键点匹配。
2 FACESHOT:让任何角色栩栩如生
回顾图 2 中由不准确或准确的面部关键点所导致的性能显著差异。对于基于关键点驱动的肖像动画模型来说,一个具有良好泛化能力的关键点检测器对于让任何角色栩栩如生是必不可少的。先前的关键点检测器(Yang 等人,2023;Xu 等人,2022;Zhou 等人,2023)要么精心挑选了更多样化的公共数据集,要么在训练过程中引入了新的损失函数,以提高关键点检测的泛化能力。然而,在有监督的训练范式下,这些检测器难以泛化到非人类角色,从而导致肖像动画的结果不准确。为了解决这个问题,我们提出了一个外观引导的关键点匹配模块,该模块可以泛化到任何角色,以生成精确的关键点。此外,为了捕捉驱动视频中的细微动作,我们提供了一个基于坐标的关键点重定向模块。最后,我们采用一个角色动画模型作为基础模型来为参考角色制作动画。
图 4:使用动漫扩散模型进行点匹配时,有(w/,用红色框突出显示)或没有 外观引导的可视化结果。
外观引导的关键点匹配。Tang 等人(2023);Hedlin 等人(2024);Luo 等人(2024)证明了扩散特征之间存在很强的语义对应关系和泛化能力,其中简单的特征匹配可以将参考图像 上的点 映射到目标图像 上语义相似的点 。然而,不同领域之间的外观差异通常会导致匹配错误,如图 4(a)所示,左眼和右耳上的点被错误匹配。一个自然的解决方案是通过使用特定领域的扩散模型进行推理来注入先验外观知识。如图 4(b)所示,在动漫扩散模型上进行推理时,点能够正确匹配。
由于为每个参考图像微调一个扩散模型的成本很高,受 IP-Adapter(Ye 等人,2023)的启发,我们利用图像提示来提供外观引导。具体来说,我们将参考图像 和目标图像 视为图像提示,分别表示为 和 。然后,我们应用 DDIM 反演过程,从 和 中获取 U 型网络(U-Net)在时间步 和第 层的确定性扩散特征 和 :
其中 和 分别根据文本提示 " 面部照片",使用公式2从 和 中迭代采样得到,图像提示分别为 和 。 表示提取U型网络(U-Net)第 层输出特征的函数。
在获得扩散特征 和 后,我们将它们上采样到 和 ,以匹配 和 的分辨率。为了提高性能和稳定性,我们从 个目标图像中构建第 个关键点 的平均特征,以匹配参考图像中的对应点 ,如下所示:
其中 表示点 处的扩散特征向量, 表示余弦距离, 指参考特征图中的点。最后,我们将参考图像的匹配关键点表示为 ,其中 表示面部关键点的数量。
外观库。我们引入了一个外观库 ,它是跨多个领域的五个先验组件(眼睛、嘴巴、鼻子、眉毛和面部边界)的集合,每个领域包含 张图像。对于参考图像 ,我们通过将 与外观库 中最接近的领域进行匹配,将目标图像重建为 ,从而明确减少参考图像和目标图像之间的外观差异,如图5所示。
图5:我们的外观库示意图。我们为每个参考图像输出最接近的领域,以减少外观差异。
基于坐标的特征点重定向。目前,牛等人(2024年);魏等人(2024年);马等人(2024年)利用三维可变形模型(3DMM)(布斯等人,2016年),通过应用三维人脸参数来生成参考图像的特征点序列。然而,基于3DMM的方法往往难以推广到非人类角色的面部,因为高质量的三维数据数量有限,且它们无法捕捉到细微的表情动作(雷蒂纳斯等人,2024年)。如图6所示,三维人脸的头部形状与输入图像对齐效果不佳,并且在第 帧中缺少诸如闭眼等细微动作。因此,
图6:使用3DMM的 人脸和重定向结果的可视化。
我们提出了一个基于坐标的特征点重定向模块,旨在生成一个重定向的特征点序列 ,该序列能够基于直角坐标系中的变换,稳定地捕捉驱动视频中的细微动作。
我们的模块由两个阶段组成,分别将整个面部的全局运动和不同面部部位的局部运动从驱动序列重定向到参考图像。在第一阶段,从第0帧到第 帧的驱动帧的全局运动被定义为相应全局直角坐标系 和 的平移 和旋转 。具体来说,全局直角坐标系由原点 和角度 构建而成,它们是根据面部边界的端点计算得出的。然后,参考图像在第 帧的全局坐标系可以根据第0帧的全局坐标系计算得出,如下所示:
最后,我们将特征点的坐标从 转换到 ,表示整个参考面部的全局运动。
在第二阶段,局部运动涉及两个过程:相对运动和点运动,应用于五个面部部位:眼睛、嘴巴、鼻子、眉毛和面部边界。相对运动与全局运动类似,但特定部位的坐标系是根据每个部位的端点计算得出的。此外,为了将每个部位限制在合理的面部范围内,我们将 缩放为 ,其中 表示从原点到每个部位边界的距离。接下来,我们对点运动进行如下建模:
其中 和 表示第 帧和第 个点在特定部位坐标系中的坐标。这种简单而有效的设计使我们能够将全局和局部、明显和细微的运动都捕捉到任何角色的特征点序列
中,其中 表示视频帧的数量。角色动画模型。在获取参考关键点序列 后,可将其应用于任何基于关键点驱动的动画模型,以实现角色肖像的动画效果。具体而言, 被视为 U-Net 的额外条件,可通过类似 ControlNet 的结构注入(Niu 等人,2024 年),或直接融入潜在空间(Hu,2024 年;Wei 等人,2024 年)。这使模型能够在保留角色视觉特征的同时,精确跟踪关键点序列中编码的动作。此外,这种灵活的条件可以无缝扩展到各种架构,提高在不同动画任务中的可扩展性。
实验与结果
1 实现细节
在这项工作中,我们采用 MOFA-Video(Niu 等人,2024 年),这是一种基于稳定视频扩散(Stable Video Diffusion,Blattmann 等人,2023a)(SVD)的关键点驱动动画模型,作为我们的基础角色动画模型。对于外观引导的关键点匹配,我们使用稳定扩散 v1.5 以及 IP-Adapter(Ye 等人,2023 年)的预训练权重从图像中提取扩散特征。具体来说,我们设置时间步长 、U-Net 层 和目标图像数量 。此外,遵循 MOFA-Video 的做法,我们使用 个关键点(Sagonas 等人,2016 年)作为面部关键点,并使用 帧进行动画制作。更多细节见附录。
评估指标。遵循 Xie 等人(2024 年);Ma 等人(2024 年)的方法,我们采用四个指标来评估身份相似度、高低层次的图像质量和表情准确性。具体而言,我们使用 ArcFace 分数(Deng 等人,2019a),该分数通过计算源视频和生成视频之间的平均余弦相似度来衡量身份相似度。我们还使用 HyperIQA(Zhang 等人,2023b)和 LAION Aesthetic(Schuhmann 等人,2022)从低层次和高层次评估图像质量。此外,我们按照 MimicBench 3 中的点跟踪步骤进行表情评估
角色基准测试。为了全面评估肖像动画方法对角色的有效性和泛化能力,我们构建了 CharacBench,其中包含来自不同领域的 46 个角色,如动物、表情符号、玩具和动漫角色。CharacBench 中的角色是从互联网上收集的,遵循的原则是确保这些角色尽可能不与人类面部特征相似。此外,我们将 RAVDESS(Livingstone & Russo,2018 年)中的人类头部视频作为驱动视频。
2 与最先进方法的比较
定性结果。我们将提出的 FaceShot 与最先进的肖像动画方法进行比较,包括 MOFA-Video(Niu 等人,2024 年)、X-Portrait(Xie 等人,2024 年)、FaceVid2Vid(Wang 等人2021年)、FADM(曾等人,2023年)、Follow Your Emoji(马等人,2024年)、LivePortrait(郭等人,2024年)和MegActor(杨等人,2024年)。图7展示了视觉对比,其中"fail"表示该方法无法为角色生成动画。由于AniPortrait(魏等人,2024年)在处理大多数非人类角色时失败,我们仅提供其定量结果。我们观察到,大多数方法,如MOFA-Video、X-Portrait、FaceVid2Vid和Follow Your Emoji,都会受到驱动视频中人类先验信息的影响,导致角色面部出现人类面部特征。相比之下,FaceShot通过我们提出的外观引导地标匹配模块提供的精确地标,有效地保留了参考角色的特征。此外,虽然大多数方法难以重新定位闭眼和张嘴等动作,但我们基于坐标的地标重新定位模块使FaceShot能够捕捉到细微的动作。
图7:与最先进的肖像动画方法的定性比较。斜杠框表示该方法未能为该角色生成动画。
除了有效的角色动画能力外,FaceShot还可以根据非人类驱动视频为参考角色制作动画,如图8所示,将肖像动画的应用从与人类相关的视频扩展到任何视频。这展示了其在开放领域肖像动画方面的潜力。
图 8:非人类驱动视频的角色动画可视化。
定量结果。我们对第1节中提到的指标进行了定量比较。请注意,一些方法,如Live-Portrait、MegActor和AniPortrait,在无法检测到面部时,无法为某些角色生成动画。因此,为了进行公平比较,我们报告这些方法的失败率如下:AniPortrait(39.13%)、MegActor(36.50%)和LivePortrait(16.67%),并且我们仅针对成功生成动画的角色计算它们的指标值,仅供参考。根据表1,在CharacBench上,FaceShot在各种指标上的表现明显优于其他方法。具体而言,FaceShot在ArcFace指标上取得了最高分(0.848),这表明外观引导地标匹配模块生成的精确地标在保留面部特征方面的有效性。FaceShot在HyperIQA(53.723)和Aesthetic(5.036)指标上取得了优异的分数,表明图像质量更好。此外,基于坐标的地标重新定位模块有助于获得有竞争力的点跟踪分数(6.935),突出了其有效处理动作的能力。重要的是,与基础方法MOFA-Video相比,我们的方法在所有指标上都取得了显著改进,进一步证明了我们提出的FaceShot的有效性。
表 1:FaceShot 与其他最先进方法在 CharacBench 上的定量比较。最佳结果用粗体标记,次佳表现用下划线突出显示。符号 * 表示这些方法存在一些失败案例,我们报告这些方法的值仅供参考。
用户偏好。此外,我们随机选择了15个案例,并招募了20名志愿者,从三个关键维度对每种方法进行评估:动作、特征和总体用户满意度。志愿者根据这些标准对动画进行排名,确保对各种方法进行公平和全面的比较。如表1所示,FaceShot在动作、特征和总体类别中均取得了最高分,展示了其在不同角色和驱动视频中的强大动画能力。
总结
在本文中,我们介绍了FaceShot,这是一个无需训练的肖像动画框架,可根据任何驱动视频为任何角色生成动画。通过利用潜在扩散模型特征中的语义对应关系,FaceShot解决了现有基于关键点驱动方法的局限性,实现了精确的关键点匹配和关键点重定向。这种强大的能力不仅将肖像动画的应用扩展到了传统边界之外,还提高了基于关键点驱动模型的动画的真实感和一致性。FaceShot还可以作为插件与任何基于关键点驱动的动画模型兼容。此外,在包含多种不同角色的基准测试CharacBench上的实验结果表明,FaceShot始终优于当前的最优方法。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论