AI I024: 阿里EMO2重磅升级！手部动作生成+超逼真表情，音频驱动人像视频生成再进化！

阿里EMO2重磅升级！手部动作生成+超逼真表情，音频驱动人像视频生成再进化！

在之前的文章中已经和大家介绍过阿里提出的音频驱动的人像视频生成方法EMO，感兴趣的小伙伴可以点击下面链接阅读~

阿里最新EMO：只需要提供一张照片和一段音频，即可生成会说话唱歌的AI视频

此外公众号的底部菜单栏也整理了数字人相关的方法合集，欢迎大家阅读收藏~

EMO2是由阿里开发的一个音频驱动的人像视频生成框架，该项目扩展了原EMO（Emote Portrait Alive）项目，增加了手部动作生成功能，显著提升了视频的真实性和动态感。 EMO2将音频驱动的人像视频生成分为两个阶段

在第一阶段，直接从音频输入生成手势，利用音频信号和手部动作之间更强的相关性。
在第二阶段，使用扩散模型来合成视频帧，结合第一阶段生成的手势来产生逼真的面部表情和身体动作

效果展示

唱歌

通过输入单个角色图像和声音音频（例如唱歌），EMO2可以生成不仅具有富有表现力的面部表情而且具有各种身体姿势的声音头像视频。

以下视频来源于

奇闻轶事呢

角色：AI Girl

演唱来源：席琳·迪翁《我心永恒》，Emma Heesters 翻唱

演讲

EMO2支持多种语言的语音，并通过直观地识别音频中的音调变化使图像栩栩如生，从而能够创建动态、性能丰富的化身。

角色：泰勒·斯威夫特

配音来源：Iliza Shlesinger 的脱口秀

手舞

EMO2可以生成复杂而流畅的手部动作，使化身以生动的表演栩栩如生。

角色：张元英

声音来源：想你（剪辑）

角色扮演

EMO2的一个潜在应用是让指定的角色在电影和游戏场景中表演相关剧本，并且表演符合他们的角色形象。

角色：黄仁勋

配音来源：众议院投票禁止TikTok

论文介绍

论文提出了一种新颖的音频驱动的说话头部方法EMO2，能够同时生成高度富有表现力的面部表情和手势。与专注于生成全身或半身姿势的现有方法不同，我们研究了音频驱动手势生成的挑战，并确定音频特征和全身手势之间的弱对应性是一个关键限制。为了解决这个问题，作者将该任务重新定义为一个两阶段过程。在第一阶段，直接从音频输入生成手势，利用音频信号和手部动作之间更强的相关性。在第二阶段，使用扩散模型来合成视频帧，结合第一阶段生成的手势来产生逼真的面部表情和身体动作。

方法

给定一个角色的单幅参考图像，EMO2可以通过输入一段音乐/人声音频片段来为角色制作动画，同时保留自然的面部表情和肢体动作，并与输入音频的变化相协调。

第一阶段手势生成框架概述。该框架包含多个 DiT 模块作为主干。音频嵌入通过交叉注意力机制注入，风格和速度嵌入按时间步添加，先前的运动潜在序列与当前带噪运动潜在序列连接以实现平滑过渡。用于遮盖不可见手部帧的手部遮罩直接添加到带噪运动潜在序列中。

第二阶段视频生成流程概览，该流程基于并行参考网络结构。参考网络从参考图像和运动帧中提取视觉特征。第一阶段生成的 MANO 图和关键点图经过去噪骨干网络，用于引导角色的运动。此外，可训练的手部置信度嵌入提升了生成手部的质量。音频嵌入的加入确保了音频和视觉元素之间的同步。

实验结果

结论

论文设计了一个基于扩散模型的双阶段共声人体视频生成框架EMO2。该框架扩展了 EMO，使其能够生成整体的面部表情和上半身运动。引入了"像素先验逆运动学"（pixels prior IK）的概念。在第一阶段，只生成手部运动，然后在第二阶段将其用作控制信号。结果表明，与其他方法相比该框架能够生成更具表现力和生动感的人体视频.

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

AI I024

2025年4月22日星期二

阿里EMO2重磅升级！手部动作生成+超逼真表情，音频驱动人像视频生成再进化！

阿里EMO2重磅升级！手部动作生成+超逼真表情，音频驱动人像视频生成再进化！

效果展示

唱歌

演讲

手舞

角色扮演

相关链接

论文介绍

方法

实验结果

结论

没有评论:

发表评论

鸿蒙押注新未来：用AI重写数字世界交互逻辑