2025年4月22日星期二

阿里EMO2重磅升级!手部动作生成+超逼真表情,音频驱动人像视频生成再进化!

阿里EMO2重磅升级!手部动作生成+超逼真表情,音频驱动人像视频生成再进化!




在之前的文章中已经和大家介绍过阿里提出的音频驱动的人像视频生成方法EMO,感兴趣的小伙伴可以点击下面链接阅读~

阿里最新EMO:只需要提供一张照片和一段音频,即可生成会说话唱歌的AI视频

此外公众号的底部菜单栏也整理了数字人相关的方法合集,欢迎大家阅读收藏~

EMO2是由阿里开发的一个音频驱动的人像视频生成框架,该项目扩展了原EMO(Emote Portrait Alive)项目,增加了手部动作生成功能,显著提升了视频的真实性和动态感。 EMO2将音频驱动的人像视频生成分为两个阶段

  1. 在第一阶段,直接从音频输入生成手势,利用音频信号和手部动作之间更强的相关性。
  2. 在第二阶段,使用扩散模型来合成视频帧,结合第一阶段生成的手势来产生逼真的面部表情和身体动作

效果展示

唱歌

通过输入单个角色图像和声音音频(例如唱歌),EMO2可以生成不仅具有富有表现力的面部表情而且具有各种身体姿势的声音头像视频。

角色:AI Girl 

演唱来源: 席琳·迪翁《我心永恒》,Emma Heesters 翻唱

演讲

EMO2支持多种语言的语音,并通过直观地识别音频中的音调变化使图像栩栩如生,从而能够创建动态、性能丰富的化身。

角色:泰勒·斯威夫特 

配音来源:Iliza Shlesinger 的脱口秀

手舞

EMO2可以生成复杂而流畅的手部动作,使化身以生动的表演栩栩如生。

角色:张元英 

声音来源:想你(剪辑)

角色扮演

EMO2的一个潜在应用是让指定的角色在电影和游戏场景中表演相关剧本,并且表演符合他们的角色形象。

角色:黄仁勋 

配音来源:众议院投票禁止TikTok

相关链接

  • 主页:https://humanaigc.github.io/emote-portrait-alive-2
  • 论文:https://arxiv.org/pdf/2501.10687

论文介绍

EMO2:末端执行器引导的音频驱动头像视频生成

论文提出了一种新颖的音频驱动的说话头部方法EMO2,能够同时生成高度富有表现力的面部表情和手势。与专注于生成全身或半身姿势的现有方法不同,我们研究了音频驱动手势生成的挑战,并确定音频特征和全身手势之间的弱对应性是一个关键限制。为了解决这个问题,作者将该任务重新定义为一个两阶段过程。在第一阶段,直接从音频输入生成手势,利用音频信号和手部动作之间更强的相关性。在第二阶段,使用扩散模型来合成视频帧,结合第一阶段生成的手势来产生逼真的面部表情和身体动作。

方法

方法背后的动机:人体运动与机器人运动类似,需要规划"末端执行器"(EE),通常是手,使其朝向目标位置。然后,身体的其他部分利用逆运动学原理,与EE进行相应的配合。

给定一个角色的单幅参考图像,EMO2可以通过输入一段音乐/人声音频片段来为角色制作动画,同时保留自然的面部表情和肢体动作,并与输入音频的变化相协调。

第一阶段手势生成框架概述。该框架包含多个 DiT 模块作为主干。音频嵌入通过交叉注意力机制注入,风格和速度嵌入按时间步添加,先前的运动潜在序列与当前带噪运动潜在序列连接以实现平滑过渡。用于遮盖不可见手部帧的手部遮罩直接添加到带噪运动潜在序列中。
第二阶段视频生成流程概览,该流程基于并行参考网络结构。 参考网络从参考图像和运动帧中提取视觉特征。第一阶段生成的 MANO 图和关键点图经过去噪骨干网络,用于引导角色的运动。此外,可训练的手部置信度嵌入提升了生成手部的质量。音频嵌入的加入确保了音频和视觉元素之间的同步。

实验结果

基于 EMTD 数据集,与姿势驱动的身体动画方法进行定性比较。
与音频驱动的身体动画方法的定性比较。

结论

论文设计了一个基于扩散模型的双阶段共声人体视频生成框架EMO2。该框架扩展了 EMO,使其能够生成整体的面部表情和上半身运动。引入了"像素先验逆运动学"(pixels prior IK)的概念。在第一阶段,只生成手部运动,然后在第二阶段将其用作控制信号。结果表明,与其他方法相比该框架能够生成更具表现力和生动感的人体视频.

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

最新实战「深度研究」:秘塔免费公开使用,一键搞定调研分析!

点击上方卡片关注 不要错过精彩文章 🎉 读完这篇文章,别忘记给舰长点一个关注!舰长的智能体搭建文章,不仅是节点的构建,也有思路的分享。智能体搭建最重要的就是思路。最希望,能给大家带来不一样的搭建思路和方法。  点一点上方的🔵蓝色小字关注,你的支持是我最大的动力!🙏谢谢啦...