AI I024: 阿里同义提出风格化实时肖像视频生成框架ChatAnyone，4090可实现实时交互式视频聊天。

阿里通义实验室提出了一种风格化实时肖像视频生成框架ChatAnyone，使视频聊天从"会说话的头像"拓展到包含上半身交互的更具表现力和灵活性的形式。ChatAnyone方法支持高效、连续地生成分辨率最高可达 512 × 768、帧率最高可达 30fps 的上半身肖像视频，并可在 4090 GPU 上实现实时交互式视频聊天。

实时肖像视频生成示意图。给定肖像图像和音频序列作为输入，该模型可以生成从整个头部到上半身互动的高保真动画结果，并具有多样的面部表情和风格控制。

互动演示

ChatAnyone可以在 4090 GPU 上实现了 30fps 的实时生成，支持交互式视频聊天的实际应用。

论文介绍

ChatAnyone：使用分层运动扩散模型生成风格化的实时肖像视频

实时互动视频聊天肖像画越来越被认为是未来的趋势，特别是由于文本和语音聊天技术的显著进步。然而，现有的方法主要侧重于实时生成头部动作，但难以产生与这些头部动作相匹配的同步身体动作。此外，实现对说话风格和面部表情细微差别的细粒度控制仍然是一个挑战。为了解决这些限制，我们引入了一个用于风格化实时肖像画视频生成的新框架，实现了富有表现力和灵活性的视频聊天，从说话的头部到上身互动。

我们的方法包括以下两个阶段。第一阶段涉及高效的分层运动扩散模型，该模型基于音频输入考虑显式和隐式运动表示，可以生成各种面部表情，并具有风格控制和头部与身体动作之间的同步。第二阶段旨在生成具有上身动作（包括手势）的肖像画视频。我们向生成器注入显式手部控制信号，以生成更详细的手部动作，并进一步进行面部细化，以增强肖像视频的整体真实感和表现力。此外，我们的方法支持在 4090 GPU 上以高达 30fps 的速度高效、连续地生成最大 512 × 768 分辨率的上半身肖像视频，支持实时交互式视频聊天。实验结果证明了我们的方法能够生成具有丰富表现力和自然上半身动作的肖像视频。

方法

提出了一种高效的分层运动扩散模型用于音频到运动的表示，根据输入音频分层生成面部和身体控制信号，同时考虑显式和隐式运动信号以实现精确的面部表情。此外，还引入了细粒度的表情控制，以实现表情强度的不同变化，以及从参考视频中进行风格化表情转换，旨在产生可控和个性化的表情。
混合控制融合生成模型专为上身图像生成而设计，利用显式标志直接生成可编辑的面部表情，同时引入基于显式信号的隐式偏移来捕捉不同头像样式的面部变化。我们还注入了显式手部控制，以获得更准确、更逼真的手部纹理和动作。此外，还采用了面部细化模块来增强面部真实感，确保肖像视频富有表现力和逼真度。
为交互式视频聊天应用构建了可扩展的实时生成框架，通过灵活的子模块组合，可适应各种场景，支持从头部驱动的动画到手势的上半身生成等任务。此外，我们建立了高效的流式推理管道，在 4090 GPU 上以最大 512 × 768 的分辨率实现 30fps，确保实时视频聊天的流畅和沉浸式体验。

结果

音频驱动的上半身动画

可以生成极具表现力的音频驱动的上身数字人体视频，支持有手或无手的不同场景。

音频驱动的说话头部动画

我们可以实现高度精确的口型同步效果，以及产生富有表现力的面部表情和自然的头部姿势。

音频驱动的风格化动画

我们可以为风格化的角色生成音频驱动的结果，同时还支持创作极具表现力的歌唱视频。

双主播 AI 播客演示

我们还可以生成双主机播客，实现人工智能驱动的对话。

互动演示

我们的方法在 4090 GPU 上实现了 30fps 的实时生成，支持交互式视频聊天的实际应用。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

AI I024

2025年4月1日星期二

阿里同义提出风格化实时肖像视频生成框架ChatAnyone，4090可实现实时交互式视频聊天。

互动演示

论文介绍

方法

结果

音频驱动的上半身动画

音频驱动的说话头部动画

音频驱动的风格化动画

双主播 AI 播客演示

互动演示

没有评论:

发表评论

人物一致性新王Nano Banana登基，AI图片编辑史诗级升级。