2026年2月5日星期四

Soul开源数字人模型SoulX-FlashTalk

0.87秒延迟、32fps高帧率,支持超长视频生成,开启实时交互。该模型为14B参数,具备高保真度与稳定性,可应用于直播、客服、短视频及游戏NPC等场景。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方关注AIGC Studio知识星球获取最新AI前沿应用/AIGC实践教程!                               图片

近期,Soul App AI团队(Soul AI Lab)开源了实时数字人生成模型SoulX-FlashTalk 。这是首个能够实现0.87s亚秒级超低延时、32fps高帧率,并支持超长视频稳定生成的14B数字人模型。 除了在速度、效果、延迟和保真度上表现出色,更重要的是,SoulX-FlashTalk为行业提供了切实可应用的业务解决方案,推动大参数量实时生成式数字人迈入可具体商用落地阶段。

图片

在实时视频通话demo中,延时还包含了数字人生成语音回复的耗时,单视频生成延时仅为0.87s"。

unsetunset相关链接unsetunset

  • 项目主页: https://soul-ailab.github.io/soulx-flashtalk/
  • 技术报告: https://arxiv.org/pdf/2512.23379
  • 源码: https://github.com/Soul-AILab/SoulX-FlashTalk
  • HuggingFace:https://huggingface.co/Soul-AILab/SoulX-FlashTalk-14B

unsetunsetSoulX-FlashTalk亮点:unsetunset

0.87s亚秒级延时,即时交互

在实时视频交互中,延迟是决定用户体验的核心因素。SoulX-FlashTalk 凭借全栈加速引擎的极致优化,成功将首帧视频输出的延时降至0.87s亚秒级。

  • "零延迟"即时反馈: 首次让14B级大模型数字人具备了即时反应能力,消除了传统大模型生成的"滞后感"。
  • 全场景交互:无论是视频通话中的即时对答、直播间弹幕的秒级互动,还是智能客服的实时响应,均能实现自然、流畅的深度对话。

32fps高帧率,重新定义"流畅"

尽管搭载了 14B 参数量的超大 DiT 模型,SoulX-FlashTalk 的推理吞吐量仍高达 32 FPS。

  • 超越行业标准:远超直播所需的 25 FPS 实时标准,确保每一帧画面都丝滑顺畅。
  • 大模型,高性能:证明了 140 亿参数大模型在经过深度加速优化后,依然可以拥有极佳的运行效率。

超长视频稳定清晰生成,告别画面"崩坏"

数字人视频最怕在生成中出现人物面部不一致或显著画质下降的问题。SoulX-FlashTalk 凭借独家的自纠正双向蒸馏技术,解决了这一痛点:

  • 无感纠错,画质无损:引入多步回溯自纠正机制,模拟长序列生成的误差传播并进行实时修正,就像为 AI 装上了"实时校准器",主动恢复受损特征。
  • 超长视频,稳定生成: 不同于传统的单向依赖,SoulX-FlashTalk 完全保留了双向注意力机制,让每一帧生成都能同时参考过去与隐含的未来上下文,从根本上压制身份漂移,这意味着在超长直播中,主播的口型、面部细节和背景环境将始终保持一致,不会出现模糊或变形。

全身动作交互:不只是"口型对齐"

SoulX-FlashTalk 突破了传统数字人仅能实现面部"对口型"的局限,带来了更加真实自然的全身肢体动态表现。

  • 全身肢体动态合成: 不同于仅对脸部进行局部重绘的方案,SoulX-FlashTalk 支持受音频驱动的全身动作生成,产生真实自然的人体动态。
  • 高精细手部表现: 基于14B DiT的强大建模能力,系统能够有效消除手部畸形与运动模糊,精准呈现结构清晰、纹理锐利的手部动作细节。
  • 灵动而不失稳定: 在追求大幅度动态表现力的同时,系统依然维持了极高的身份一致性(Subject-C 达 99.22),实现了动作灵活性与画面稳定性的完美平衡。

unsetunset原理介绍unsetunset

在行业中,传统数字人生成方案大多面临画面生成时间长、延迟高、生成效果差、效果不稳定、保真度低等问题。 在这样的背景下,SoulX-FlashTalk正式开源,模型包含四个核心组件:

  • 3D VAE:利用 WAN2.1 VAE 进行潜空间压缩,实现高效的高分辨率视频生成
  • DiT 生成器:核心为 140 亿参数的 Diffusion Transformer,各区块集成 3D 注意力机制,并利用交叉注意力层注入参考图像、文本和音频信号
  • 条件编码器:采用专门针对中文语音优化的 Wav2Vec 模型、用于图像特征提取的 CLIP 以及支持双语字幕的 umT5
  • 潜变量输入构建:通过帧间和通道间拼接,将历史运动上下文、带噪潜变量和参考图像指引有效整合,支持模型利用参考信息纠正累积误差

为了平衡生成质量与推理速度,团队采用了两阶段训练策略:

  • 第一阶段:延迟感知时空适配 (Latency-Aware Spatiotemporal Adaptation),结合动态长宽比分桶策略进行微调,使模型适应较低的分辨率和更短的帧序列;
  • 第二阶段:自纠正双向蒸馏 (Self-Correcting Bidirectional Distillation)。利用 DMD 框架压缩采样步数并移除无分类器引导(CFG),实现加速;多步回溯自纠正机制,通过 autoregressively 合成连续分块(最多 K个chunks),显式模拟长视频生成的误差传播;随机截断策略,在训练中在第 k(< K)个分块数进行反向传播,实现高效且无偏的显存友好优化 。
    训练流程示意图

同时,团队进行实时推理加速系统优化, 针对 8-H800 节点设计的全栈加速引擎实现了亚秒级延迟 ,包括了

  • 混合序列并行 (Hybrid Sequence Parallelism):整合 Ulysses 和 Ring Attention,使单步推理速度提升约5倍算子级优化:采用针对Hopper架构优化的FlashAttention3,通过异步执行进一步减少 20% 的延迟
  • 3D VAE 并行化:引入空间切片并行解码策略,实现VAE处理的5倍加速
  • 整链优化:通过 torch.compile 实现全流程图融合与内存优化

值得注意的是,在Soul AI团队发布的技术报告中指出,传统的单向(Unidirectional)模型在处理全局时间结构时存在约束,容易导致时间不一致和身份漂移。因此,团队完全保留双向注意力机制(All-to-All 交互),使模型能同时利用过去与隐含的未来上下文,显著提升了生成的一致性与细节质量 。

SoulX-FlashTalk推理架构流程图

SoulX-FlashTalk推理架构流程图

unsetunset客观表现unsetunset

通过TalkBench-Short和TalkBench-Long数据集上的定量对比,展示了SoulX-FlashTalk 在视觉质量、同步精度及生成速度上的全面领先:在短视频评测中,它以 3.51 的 ASE 和 4.79 的 IQA 刷新了视觉保真度纪录,并以 1.47 的 Sync-C 分数表现出最优的口型同步精准度;在 5 分钟以上的长视频生成中,系统凭借双向蒸馏策略有效抑制了同步漂移,取得了 1.61 的 Sync-C 优异成绩;此外,作为 14B 参数规模的大模型,它在长短视频任务中均维持了 32 FPS 的高吞吐量,不仅远超 25 FPS 的实时性基准,更在推理效率上显著优于行业同类主流模型。

图片

此次,SoulX-FlashTalk 项目发布后也快速进入了HuggingFace I2V( Image To Video)趋势榜TOP5。

图片

unsetunset应用场景unsetunset

  1. 7×24小时AI 直播间
  • 场景: 电商直播。
  • 应用: 传统的数字人直播长时间运行后常会出现嘴型对不上或画质模糊的问题。SoulX-FlashTalk 可以支持全天候超长视频的流畅直播,即便是在高强度的实时互动中(回复弹幕),也能保持如同真人出镜的高保真画质,极大地降低了直播成本。
  1. AI 虚拟导师/客服
  • 场景: 在线教育或银行智慧柜员。
  • 应用: 0.87秒的超低延迟让对话几乎感受不到"机器味"。当学生或客户提出复杂问题时,数字人导师能像真人视频通话一样,带着生动的表情即时解答,这种"面对面"的信任感是文字或普通语音助手无法比拟的。
  1. "好莱坞级"短视频快速批量产出
  • 场景: 营销短视频、短剧创作。
  • 应用: 创作者只需输入一段长音频,系统即可自动生成画质精美、动作自然的全身数字人视频,无需昂贵的动捕设备和后期修图。其"长时稳定性"确保了长视频从第一秒到最后一秒的质感完全统一。
  1. 游戏中的"真实"NPC 交互
  • 场景: 开放世界游戏。
  • 应用: 玩家可以通过语音直接与游戏角色交流,SoulX-FlashTalk 驱动的 NPC 能实时产生符合情绪的动态反馈,让游戏角色交互更具趣味性和温度。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

Alibaba's Qwen-Image 2512 Turbo : Generate 4 2K Images in 5 Seconds, 40x Faster。

Summary: Alibaba's new Qwen-Image 2512 Turbo model slashes image generation steps from 80-100 to just 2, boosting speed 40x. This open-s...