添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
由港大、浙大、北交等提出的AnyTalker 是一个音频驱动的框架,用于生成多人对话视频。它具有灵活的多流结构,可以扩展身份规模,同时确保身份之间的无缝互动。权重、推理代码已经开源。
相关链接
论文:https://arxiv.org/abs/2511.23475 代码:https://github.com/HKUST-C4G/AnyTalker 项目:https://hkust-c4g.github.io/AnyTalker-homepage 试用:https://huggingface.co/spaces/C4G-HKUST/AnyTalker
介绍
近年来,多人视频生成技术逐渐受到关注。虽然一些初步研究探索了基于音频的多人对话视频生成,但由于收集多样化的多人数据成本高昂,以及难以实现多个身份的连贯交互,这些研究往往面临挑战。
为了应对这些挑战,论文提出了 AnyTalker,一个具有灵活多流处理架构的多人生成框架。具体而言,作者扩展了扩散变换器的注意力模块,引入了一种新颖的身份感知注意力机制,该机制能够迭代处理身份-音频对,从而使可驱动的身份数量可以任意扩展。此外,训练多人生成模型需要海量的多人数据。提出的训练流程仅依赖于单人视频来学习多人说话模式,并且仅需少量真实的多人视频片段即可优化交互性。此外还提供了一个专门的指标和数据集,用于评估生成的多人视频的自然度和交互性。大量实验表明,AnyTalker 实现了出色的唇形同步、视觉质量和自然交互性,在数据成本和生成保真度之间取得了良好的平衡。
方法
(a) AnyTalker 的架构融合了一种新颖的多流音频处理层——音频-人脸交叉注意力机制,使其能够处理多个面部和音频输入。 (b) AnyTalker 的训练分为两个阶段:第一阶段使用由单人数据与单人数据混合而成的多人拼接数据,以学习精确的唇部动作;第二阶段使用真实的多人数据来增强生成视频的交互性。 (c) 音频-人脸交叉注意力机制的详细实现该机制是一种递归可调用的结构,它使用面部掩码对输出进行掩码处理。
实验
对多种多人驾驶方法进行定性比较。使用相同的文本提示、参考图像和多个音频流作为输入,比较了 Bind-Your-Avatar、MultiTalk 和 AnyTalker 的生成结果。左侧示例使用来自 InteractiveEyes 数据集的输入图像,右侧示例使用由文本到图像生成模型生成的图像。
在 HDTF 和 VFHQ 基准测试上与其他竞争方法进行定量比较。此处,OmniHuman-1.5∗ 指的是其通过 JiMeng 平台 访问的"主模式"版本,该版本目前不支持多人生成。
结论
论文介绍了一种名为 AnyTalker 的音频驱动框架,用于生成多人对话视频。该框架提出了一种可扩展的多流处理结构,称为音频-人脸交叉注意力机制,能够在保证无缝跨身份交互的同时,实现身份的可扩展性。此外,还提出了一种通用的训练策略,该策略通过基于拼接的数据增强,最大限度地利用单人数据来学习多人说话模式。同时论文提出了首个交互性评估指标和一个定制的基准测试,用于进行全面评估。大量实验表明,AnyTalker 在多人场景中能够很好地平衡唇音同步、身份可扩展性和交互性。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论