2025年4月13日星期日

数字人技术再突破!阿里通义提出OmniTalker,从文本联合生成语音和说话视频,支持多种生成方式!




阿里的通义实验提出了 OmniTalker,一个从文本联合生成语音和说话视频的统一框架,它减轻了现有方法中冗余计算、错误积累和视听风格不匹配的痛苦。支持零样本上下文多模态生成、情感表达生成、长视频一致性生成以及交互式演示。一起来看效果!

相关链接

  • 论文:https://arxiv.org/pdf/2504.02433v1
  • 代码:https://github.com/HumanAIGC/omnitalker
  • 主页:https://humanaigc.github.io/omnitalker/

论文介绍

OmniTalker:实时文本驱动的说话头像生成,具有上下文视听风格复制功能

近年来,头部特写生成 (THG) 技术取得了显著进展,这得益于其有望彻底改变人机交互方式,从文本界面向逼真的视频聊天转变。然而,文本驱动的头部特写研究仍未得到充分探索,现有方法主要采用级联流水线,将文本转语音 (TTS) 系统与音频驱动的头部特写模型相结合。这种传统流水线不仅增加了系统复杂性和延迟开销,而且从根本上存在视听输出异步以及生成的语音与视觉表情之间风格差异的问题。

为了突破这些限制,我们推出了 OmniTalker,这是一个端到端的统一框架,可在实时零样本场景下,从文本和参考视频同时生成同步语音和头部特写视频,同时保留语音风格和面部表情。该框架采用双分支扩散变换器架构:音频分支从文本合成梅尔频谱图,而视觉分支则预测细粒度的头部姿势和面部动态。为了连接不同模态,我们引入了一个新颖的视听融合模块,该模块整合了跨模态信息,以确保音频和视频输出之间的时间同步和风格一致性。此外,我们的上下文参考学习模块能够有效地从单个参考视频中捕捉语音和面部风格特征,而无需引入额外的风格提取模块。

据我们所知,OmniTalker 是第一个在零样本环境下联合建模语音风格和面部风格的统一框架,实现了 25 FPS 的实时推理速度。大量实验表明,我们的方法在生成质量方面超越现有方法,尤其在风格保持和音视频同步方面表现出色,同时保持了实时预测效率。

方法

OmniTalker 模型框架。

(a)上下文嵌入模块采用特定模态编码器提取文本、音频和运动嵌入。然后根据目标序列长度填充音频和运动嵌入,目标序列长度由额外的时长预测模块估算。

(b)音频和视觉特征在视听融合模块中共同交互。然后,音频和视觉特征分别输入到多个 DiT 块中。

  • 统一的多模式框架:OmniTalker 在单一模型中集成了文本到音频和文本到视频的生成,通过跨模式融合实现同步输出。
  • 上下文多模态风格复制:参考引导机制捕捉语音和面部风格,实现零样本复制。
  • 实时效率:通过集成流匹配并保持较小的模型大小(0.8B),OmniTalker 实现实时推理,同时保留高保真输出。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

开源:基于计算机视觉的交通路口智能监控系统

基于计算机视觉的交通路口智能监控系统 源代码 https://www.gitpp.com/lerobot/projects06078009 项目主要由三个模块组成,分别是:SRS流媒体服务器,云端GPU服务器,本地客户端. 首先,网络摄像机将交通路口的监控视频实时上传到 SR...