由中山大学、美团、港科大开源的 MultiTalk 可实现多虚拟人对话视频生成。
由中山大学、美团、港科大开源的 MultiTalk 可实现多虚拟人对话视频生成。在语音与嘴形同步方面达到了SOTA性能,并支持通过prompt实现人物、物体与场景的交互。
相关链接
主页:https://meigen-ai.github.io/multi-talk/ 代码:https://github.com/MeiGen-AI/MultiTalk 论文:https://arxiv.org/abs/2505.22647
论文介绍
近年来,音频驱动的人体动画技术飞速发展,从逼真的说话头部(Talking Head)到全身动作同步(Talking Body),已能生成高自然度的单人物视频。然而,现有技术大多局限于单人场景,面对多人对话视频生成时面临三大挑战:
多音频流输入适配:如何区分并绑定不同人物的音频信号? 动态人物定位:当人物在画面中移动时,如何精准定位其运动区域? 指令遵循能力:如何让生成的视频严格遵循文本描述的复杂动作(如大幅肢体动作)?
方法概述
MultiTalk以DiT(Diffusion-in-Transformer)为基础的视频扩散模型作为其核心骨架。基础的图像到视频(I2V)扩散模型通常不原生支持音频输入。为了让模型能够"说话",MultiTalk在每个DiT块的文本交叉注意力层之后,添加了新的层,这些层包含层归一化和音频交叉注意力机制,专门用于处理和整合音频条件。
传统方法直接融合多音频流会导致人物与音频错配。MultiTalk提出Label Rotary Position Embedding(L-RoPE),通过以下步骤实现精准绑定:
步骤1:自适应人物定位利用参考图像的自注意力图(Self-Attention Map),计算人物区域与背景的相似度矩阵,动态分割视频潜在特征(Video Latents)为不同人物区域。
步骤2:标签分配与旋转编码为每个说话人分配独立的数值范围标签(如Person1:0-4,Person2:20-24),并通过旋转位置编码(RoPE)将标签映射到音频交叉注意力层。相同标签的音频与视频区域会被激活,从而绑定音频与人物的唇部动作。
实验结果
结论
MultiTalk提出一种音频驱动多人物对话视频生成方案,其核心突破在于其创新的L-ROPE方法,它通过结合自适应人物定位和带有类别信息的标签编码,有效解决了多流音频的注入和人物绑定这一难题。此外,其精心设计的部分参数训练和多任务训练策略,确保了模型在有限资源下依然能够保持强大的指令遵循能力和高质量的视觉输出。MultiTalk首次将语音驱动的动画从单人推向多人场景,为虚拟主播、影视制作等领域提供了强有力工具。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论