2025年6月5日星期四

港科&腾讯&清华提出全球首个多模态Mamba生成框架ACTalker,支持多信号输入,数字人嘴型同步再升级!

由港科大、腾讯、清华联合发布的全球首个多模态Mamba驱动框架ACTalker,它是一个端到端的视频扩散框架,




由港科大、腾讯、清华联合发布的全球首个多模态Mamba驱动框架ACTalker,它是一个端到端的视频扩散框架,支持多信号控制和单信号控制,用于生成说话头部视频可以实现单/多信号随心切换,虚拟人嘴型同步精度大幅提升!

图片ACTalker框架不仅可以生成由多个信号驱动的视频,而不会引起面部区域的控制冲突(前三行),而且还支持由单个信号驱动的视频生成(后两行)。

1. 仅音频驱动

1.1 肖像歌唱

1.2 肖像说话

2. 仅面部运动驱动

2.1 自然运动脸

图片

2.2 高动面

图片

3. 音频和面部动作驱动

4. 与其他方法的比较

4.1 音频驱动对比

4.2 运动驱动对比


  • 论文:https://arxiv.org/pdf/2504.02542
  • 项目:https://harlanhong.github.io/publications/actalker

论文介绍

图片

说话头部合成对于虚拟化身和人机交互至关重要。然而,大多数现有方法通常仅限于接受单一主要模态的控制,限制了其实际应用。为此,我们引入了 ACTalker,这是一个端到端的视频扩散框架,支持多信号控制和单信号控制,用于生成说话头部视频。对于多信号控制,作者设计了一个并行的 mamba 结构,该结构具有多个分支,每个分支使用单独的驱动信号来控制特定的面部区域。所有分支都应用了门控机制,从而可以灵活地控制视频生成。为了确保受控视频在时间和空间上的自然协调,我们采用了 mamba 结构,该结构允许驱动信号在每个分支的两个维度上操纵特征标记。此外引入了一种 mask-drop 策略,允许每个驱动信号在 mamba 结构内独立控制其对应的面部区域,从而避免控制冲突。实验结果表明,该方法能够生成由多种信号驱动的自然面部视频,并且 mamba 层能够无缝集成多种驱动模态而不会发生冲突。

架构概述

图片ACTalker 框架示意图。 ACTalker 接收多种信号输入(例如音频和视觉面部运动)来驱动说话头部视频的生成。除了稳定视频扩散模型中的标准层(例如空间卷积、时间卷积、空间注意力和时间注意力)之外,还引入了一个并行控制的 Mamba 层,以充分利用多信号控制的强大功能。音频和面部运动信号以及相应的掩码被输入到这个并行控制的 Mamba 层中,这些掩码指示了需要重点关注的区域。

图片并行控制 Mamba 层示意图。 此层有两个并行分支,一个用于音频控制,另一个用于表情控制。在每个分支中使用一个门控来控制训练期间控制信号的访问。在推理过程中可以手动修改门控的状态,以实现单信号控制或多信号控制。

实验

图片比较不同的音频驱动说话头部生成方法。该方法可以生成更自然、更准确的口型同步视频。

结论

本研究引入了视听控制视频扩散 (ACTalker) 模型,这是一个用于生成说话头部的新型端到端框架,它使用音频和细粒度表情信号实现无缝同步控制。通过结合遮罩丢弃 (maskdrop) 策略,该模型可以聚焦于每个控制信号的相关面部区域,从而提升视频质量并防止生成视频中的控制冲突。 在高难度数据集上进行的大量实验表明,该方法能够生成自然的说话头部视频,并精确控制多个信号,相比现有方法取得了更优异的效果。消融研究验证了我们的遮罩丢弃策略在增强生成内容方面的有效性,以及门控机制在灵活控制视频生成过程方面的有效性。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

开源:基于计算机视觉的交通路口智能监控系统

基于计算机视觉的交通路口智能监控系统 源代码 https://www.gitpp.com/lerobot/projects06078009 项目主要由三个模块组成,分别是:SRS流媒体服务器,云端GPU服务器,本地客户端. 首先,网络摄像机将交通路口的监控视频实时上传到 SR...