2026年3月23日星期一

Soul App开源模型SoulX-LiveAct:双卡低成本实现小时级实时数字人生成

Soul AI团队开源SoulX-LiveAct模型,通过Neighbor Forcing与ConvKV Memory技术,在双卡H100/H200上实现20FPS实时流式推理,支持小时级稳定生成,解决长视频身份漂移与推理成本高问题,适合开发者与AI研究者部署应用。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片
图片

图片Soul App AI团队(Soul AI Lab)发布开源模型SoulX-LiveAct,为实时数字人生成带来新突破。当前,AI技术在数字人直播等场景加速普及,行业对模型需求从"能生成"转向"能长期稳定生成",但数字人生成在长视频场景中存在画面稳定性与一致性下降、实时推理成本上升等难题。SoulX-LiveAct通过创新技术,让AR diffusion走向可真正长时稳定实时流式,在2张H100/H200条件下,能实现20 FPS实时流式推理,支持多种输入驱动,生成高质量实时数字人视频。该团队不断开源不同模型,为开源社区和行业提供差异化方案,满足开发者多样需求,值得体验。

unsetunset效果展示unsetunset

unsetunset相关链接unsetunset

  • 论文链接: https://arxiv.org/abs/2603.11746
  • 主页:https://soul-ailab.github.io/soulx-liveact

  • Github链接: https://github.com/Soul-AILab/SoulX-LiveAct

unsetunset直击亮点unsetunset

从"能实时生成",走向"能小时级稳定实时生成"

我们关注的不只是短视频片段生成,而是更贴近真实互动场景的长时稳定实时生成。论文围绕"小时级实时人类动画"展开,并报告在仅需两张 NVIDIA H100 或 H200 GPU 的条件下,即可实现 20 FPS 的实时流式推理。论文实验显示,SoulX-LiveAct 在 lip sync、视频质量、人物保真度、情绪表达以及推理成本上都取得了很强的综合表现;不仅生成质量高,而且部署成本更低,更贴近真实业务落地。

提出 Neighbor Forcing,重新定义 AR diffusion 里的时序传播方式

现有 AR diffusion 往往在不同扩散步之间传播历史表示,容易带来噪声语义不一致、训练信号不稳定的问题。我们提出 Neighbor Forcing,在相同扩散步上传播时间相邻帧的 latent neighbor,让时序依赖建模发生在一致的扩散状态中,从而带来更稳定的优化和更高效的推理。

提出 ConvKV Memory,实现固定内存的长视频生成

长视频生成最大的系统瓶颈之一在于 KV cache 会随时长持续增长。我们提出 ConvKV Memory,将历史 key value 压缩为固定长度记忆,在尽量保留长期时序信息的同时,把不断增长的缓存变成可控、可复用、可长期运行的记忆结构。

不只是会说话,还能做出更自然的表情与动作

除了语音驱动,我们还引入 Emotion and Action Editing Module,让模型能够在保持身份和口型同步的同时,实现表情、动作的可控编辑,支持更自然的多模态互动。

unsetunset核心挑战unsetunset

虽然 AR diffusion 具备流式生成和在线推理的潜力,但在小时级实时数字人场景下,现有方法仍面临两个核心瓶颈。

  • 时序传播与扩散状态不一致。很多 forcing 策略传播的是 sample level 的历史表示,而且这些表示往往来自不同扩散步。这样会导致目标帧与历史参考帧之间存在噪声语义错位,模型必须在不一致的扩散状态中建模时序依赖,训练信号容易变脏,优化不够稳定。
  • 历史表示会无限增长,难以高效复用。即使时序生成是稳定的,随着生成长度不断增加,KV cache 也会持续膨胀,导致内存和计算开销越来越大。已有方法往往依赖重叠窗口或者额外的复杂记忆模块,但前者会遗忘远距离历史信息,后者又会引入额外架构复杂度,不利于实时部署。

这些问题最终会表现为长视频中的身份漂移、服饰和配饰细节丢失、动作不连贯,以及实时推理成本过高。

unsetunset方法设计unsetunset

图片LiveAct是一个面向小时级实时数字人的 AR diffusion 框架。整个方法围绕两个核心设计展开。 首先提出了 Neighbor Forcing。它不再传播不同扩散状态下的历史 sample,而是在同一个扩散步上传播时间相邻帧的 latent neighbor。也就是说,在每一个 denoising step 中,当前目标帧和所有参考帧都处于一致的噪声条件下。这样,模型建模的时序依赖发生在同一个 diffusion state 内,训练信号更干净,优化更稳定,也更容易直接复用已有的 KV 表示。

在此基础上,论文进一步提出 ConvKV Memory。它将历史 KV 分成两部分处理:近期上下文保留为未压缩的短期记忆,以保证精度;更早的历史则通过轻量级 1D convolution 持续压缩成长期记忆,并结合 RoPE reset 保持位置对齐。这样,模型既能利用远距离历史信息,又不会让 KV cache 无限增长,从而实现固定内存、稳定时延的长时生成。 此外,LiveAct还加入了 Emotion and Action Editing Module,用于实现表情和动作的可控编辑,让数字人不仅"说得准",还能够"演得自然"。

整体上,SoulX-LiveAct 的训练流程分为两个阶段。第一阶段采用 Neighbor Forcing 完成音频、文本条件与视频生成之间的稳定对齐。第二阶段将 ConvKV Memory 引入到 DMD 风格的蒸馏训练中,使模型在推理时可以保持固定长度的 KV cache,从而支持稳定的长时实时生成。

unsetunset性能表现unsetunset

SoulX-LiveAct 在质量、稳定性和效率上都取得了很强的综合表现。 在 HDTF 数据集上,SoulX-LiveAct 的 Sync C 达到 9.40,Sync D 降到 6.76,FID 为 10.05,FVD 为 69.43,同时在 VBench 和 VBench 2.0 指标上也表现领先,说明模型在口型同步、视觉质量和身份保持方面都取得了明显提升。 在 EMTD 数据集上,SoulX-LiveAct 同样取得了很强结果。模型达到 8.61 的 Sync C、7.29 的 Sync D、32.90 的 FID 和 313.6 的 FVD,同时在 Temporal Quality、Image Quality 和 Human Fidelity 等指标上表现突出,进一步说明其在更复杂的全身动作场景下仍具备较强鲁棒性。

图片

在效率方面,SoulX-LiveAct 每帧仅需 27.2 TFLOPs,显著低于双向基线的 50.2 TFLOPs/frame 和 Live Avatar 的 39.1 TFLOPs/frame。借助 FP8 精度和系统级优化,模型可以在 两张 H100/H200 GPU 上实现 20 FPS 的实时推理,在 720×416 或 512×512 分辨率下都具备较高的部署可行性。

图片

从可视化结果来看,SoulX-LiveAct 在长视频中能够更稳定地保持人物身份、服饰纹理和配饰细节。对比方法中常见的身份漂移、戒指消失、服装纹理变化等问题,在 SoulX-LiveAct 中都得到了明显缓解。

图片

unsetunset训练设置unsetunset

Neighbor Forcing

图片

Neighbor Forcing 是 SoulX-LiveAct 最核心的方法之一。它回答了 AR diffusion 中一个关键问题,也就是"沿着 AR 链到底应该传播什么"。不同于 Teacher Forcing、Diffusion Forcing 或 Self Forcing 传播 clean samples、heterogeneous noisy samples 或 self generated last step samples,Neighbor Forcing 传播的是 同一扩散步下的邻帧 reference states。

这样的好处在于,目标帧与参考帧始终处在同一个 noise space 中,时间依赖建模发生在一致的扩散状态里,因此训练更稳定,收敛更快,而且天然支持 KV reuse。论文还指出,相比 Self Forcing,Neighbor Forcing 不需要额外的 ODE initialization 训练,蒸馏步数也从 1000 steps 降到了 500 steps。

ConvKV Memory

图片

ConvKV Memory 主要解决长时生成中的内存膨胀问题。它保留最近的短期 KV 作为高精度上下文,同时使用轻量级 1D convolution 将更早的历史 KV 压缩成固定长度的长期记忆,并通过 RoPE reset 处理压缩后的位置信息。 这种设计的关键价值在于,它把"越来越长的缓存"变成了"固定长度的结构化记忆",从而在不牺牲长程信息的前提下,实现稳定时延和常数内存推理。论文中还指出,ConvKV Memory 仅带来 1.9% 的额外推理开销。

Emotion and Action Editing Module

Emotion and Action Editing Module 用于增强数字人的可控性和表现力。它支持对表情和动作进行显式编辑,例如 sad、heart gesture、cover face 和 laughing 等。实验结果表明,该模块可以在保持身份和 lip sync 的同时,实现更平滑的动作过渡,并减少不自然的变形和运动伪影。

两阶段训练与实时部署系统

在训练上,SoulX-LiveAct 采用两阶段流程。第一阶段以 Neighbor Forcing 为核心,重点学习音频、文本和视频之间的对齐关系。第二阶段则将 ConvKV Memory 纳入 DMD 风格蒸馏中,进一步提升推理效率和长时稳定性。实验设置中,第一阶段使用 300 小时 多模态配对数据,第二阶段在 3 step inference 设置下进行 500 training steps 的联合优化。在部署上,配合 FP8、序列并行和算子融合,LiveAct真正把方法层面的创新转化成了工程层面的实时能力。

unsetunset一句话总结unsetunset

SoulX-LiveAct 试图解决的不只是"数字人能不能生成出来",而是 如何让数字人长时间稳定地实时生成,并且在质量、身份一致性和成本之间取得更好的平衡。通过 Neighbor Forcing 和 ConvKV Memory,LiveAct把 AR diffusion 在训练稳定性、长时一致性和实时部署效率上的几个关键瓶颈一起向前推进了一步。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

NotebookLM全自动操控教程 零编程基础傻瓜式操作指南

本文提供NotebookLM全自动操控的傻瓜式教程,专为不懂编程的用户设计。核心亮点在于无需代码知识即可实现全自动操作,适合希望快速上手AI工具的学习者。教程步骤清晰,零基础可跟随操作,无额外费用,永久有效。 Tags: NotebookLM教程 AI工具 零基...