AI I024: SoulX-LiveAct实时数字人：2张显卡20FPS流式生成，支持小时级无限时长开源模型

2026年3月25日星期三

SoulX-LiveAct实时数字人：2张显卡20FPS流式生成，支持小时级无限时长开源模型

Soul AI发布开源模型SoulX-LiveAct，采用Neighbor Forcing和ConvKV Memory技术，仅需2张H100/H200显卡即可实现20FPS实时流式推理，支持小时级无限时长数字人生成，解决了长视频身份漂移和显存爆炸问题。适合开发者和研究人员用于实时交互应用。

Tags:

实时数字人

AI生成模型

开源项目

实时交互

小时级生成

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Dingcheng Zhen等

解读：AI生成未来

项目页：https://soul-ailab.github.io/soulx-liveact/
代码仓库：https://github.com/Soul-AILab/SoulX-LiveAct
Hugging Face：https://huggingface.co/Soul-AILab/LiveAct

亮点直击
在数字人技术从"实验室点播"迈向"直播间实战"的过程中，行业始终被两大阴云笼罩：一是长时生成的崩溃，视频跑着跑着脸就"化"了；二是算力的黑洞，为了维持流畅度往往需要堆砌昂贵的算力集群。
近日，Soul AI团队发布了最新开源模型 SoulX-LiveAct。该模型通过创新的 Neighbor Forcing 策略和 ConvKV Memory 机制，在仅需2张H100/H200显卡的情况下，实现了20 FPS的实时流式推理，且支持真正意义上的"无限时长"生成，彻底解决了长视频生成的显存爆炸与动作漂移问题。

总结速览

解决的问题

不一致的学习信号：现有的大多数强制策略在传播样本级表示时，扩散状态不匹配，导致学习信号不一致和收敛不稳定。
推理效率限制：历史表示无限制增长且缺乏结构，阻碍了缓存状态的有效重用，严重限制了推理效率，无法实现真正无限的视频生成。

提出的方案

Neighbor Forcing：

提出了一种扩散步骤一致的自回归（AR）公式，将时间上相邻的帧作为潜在邻居在相同的噪声条件下进行传播。
该设计提供了一个分布对齐且稳定的学习信号，同时在整个AR链中保留了漂移。
通过利用在相同扩散步骤下评估的时间相邻帧的潜在局部平滑性，使得AR建模更加容易和稳定。

ConvKV Memory：

引入了一种结构化的ConvKV记忆机制，将因果注意力中的键（keys）和值（values）压缩成固定长度的表示。
这使得恒定内存推理和真正的无限视频生成成为可能，而无需依赖短期运动帧内存。
利用轻量级一维卷积，在不引入额外架构复杂性的情况下，有效总结了长期上下文信息。

应用的技术

自回归（AR）扩散模型：结合扩散建模与因果AR生成，支持流式推理和避免固定长度限制。
DiT (Diffusion Transformer)：SoulX-LiveAct 采用 DiT 模型，并结合 Flow Matching 技术。
音频交叉注意力：用于注入音频条件，实现唇部同步和情感表达。
块级AR扩散策略：将序列划分为连续的块进行生成。
FP8精度、序列并行和操作融合：优化实时系统，提高硬件效率。
Emotion and Action Editing Module：辅助模块，用于控制面部表情和姿势。

达到的效果

显著改进：与现有AR扩散方法相比，显著改善了训练收敛性、小时级生成质量和推理效率。
实时性能：SoulX-LiveAct 能够实现小时级实时人物动画，在两块NVIDIA H100或H200 GPU上支持20 FPS的实时流式推理。
SOTA性能：在唇部同步准确性、人物动画质量和情感表达方面达到了最先进的性能，同时具有最低的推理成本。
计算效率：每帧512x512分辨率的计算成本为27.2 TFLOPs，远低于之前的AR扩散方法（例如，Live-Avatar的39.1 TFLOPs/帧）。
长视频一致性：在长视频生成中保持了稳定的身份表示和细粒度细节，解决了现有方法中常见的身份漂移和细节不一致问题。

挑战：实时数字人的"长跑"难题

目前的自回归（AR）扩散模型在视频生成上展现了巨大潜力，但在迈向"小时级"甚至"无限时"实时交互时，面临着两大瓶颈：

训练不一致性：传统的Forcing策略在传播过程中存在扩散状态不匹配，导致信号不稳定，数字人容易在长时间生成后"崩坏"。
显存黑洞：随着生成长度增加，KV Cache（键值缓存）呈线性增长，单卡显存难以支撑长达数小时的连续对话。

核心突破：Neighbor Forcing 与 ConvKV Memory

为了攻克上述难题，SoulX-LiveAct 提出了两项核心技术创新：

Neighbor Forcing：让每一帧都有"好邻居"

研究团队提出了一种扩散步一致（diffusion-step-consistent）的自回归公式。通过将时间相邻帧作为"潜在邻居"，并在相同的噪声条件下进行传播，确保了学习信号的分布对齐。这不仅提升了生成的稳定性，还让数字人的动作衔接更加平滑。

ConvKV Memory：告别显存焦虑

受限于长程注意力机制的开销，SoulX-LiveAct 引入了结构化的 ConvKV 存储机制。它将因果注意力中的键（Keys）和值（Values）压缩为固定长度的表示，使得推理时的显存占用保持恒定。无论生成的视频是1分钟还是1小时，显存消耗始终在掌控之中。

性能表现：不仅是快，更是极致的稳

在多项基准测试中，SoulX-LiveAct 展现出了统治级的表现：

实时流式推理：在双卡（H100/H200）环境下达到 20 FPS，满足高频交互需求。
极致一致性：支持小时级别的连续生成，身份特征（Identity）稳定，细节不"掉件"，不会出现常见的面部扭曲或着装突变。
多模态驱动：支持图像、音频及文本指令驱动，能够生成表情生动、情绪可控且拥有丰富全身动作的数字人。

实验结果：刷新 SOTA 榜单

量化指标显示，SoulX-LiveAct 在唇形同步准确度（Lip-sync Accuracy）、人体动画质量以及情绪表达力上均达到了 SOTA 水平，且推理成本远低于同类模型。

原理详解 -- 深度解析SoulX-LiveAct 的底层逻辑：如何重构生成范式？

如果说之前的技术是在"缝补"旧框架，SoulX-LiveAct 则是直接在扩散模型（Diffusion Models）的根基上动了手术。

Neighbor Forcing：从"自顾自"到"步调一致"

在自回归视频生成中，每一帧的生成都依赖于前一帧。传统的 Teacher Forcing 存在一个隐形杀手：扩散步偏移。

技术痛点：通常模型在训练时，第 t 帧和第 t-1 帧往往处于不同的噪声水平。推理时，前一帧的微小噪声预测偏差会迅速放大。

SoulX-LiveAct 的解法：我们提出了邻域强迫策略。在训练阶段，强行让相邻帧处于相同的扩散时间步 s。

数学直觉：通过这种设计，模型学习到的不再是单一帧的去噪，而是相邻帧之间的条件联合分布。这相当于给模型建立了一个"局部信任域"，确保了在推理无限长序列时，每一帧都在前一帧的"稳健预测范围"内，从而彻底杜绝了面部崩坏。

ConvKV Memory：从"无限增长"到"空间折叠"

Transformer 架构最令人头疼的就是其注意力机制的计算复杂度随长度增长。对于实时数字人，这无异于自杀。

传统做法：缓存所有历史帧的 Key 和 Value，显存随时间"爆炸"。

SoulX-LiveAct 的解法：我们引入了基于卷积的键值记忆网络（ConvKV）。它并不是粗暴地丢弃历史，而是进行空间与维度的重组。

时域压缩：利用深度可分离卷积（Depthwise Conv）对旧的 KV 缓存进行下采样，将冗余的背景、静止像素信息压缩。

因果对齐：通过因果掩码（Causal Masking）确保压缩后的记忆只包含过去的语义，而不泄露未来信息。

工程意义：这种设计将注意力机制从 O( $L^2$ )降低到了 O(1) 的常数级显存开销。无论对话进行了 10 秒还是 10 小时，模型始终只需处理固定大小的"记忆块"。

开源与未来

Soul AI 团队致力于推动数字人技术的普惠化。目前，SoulX-LiveAct 已全面开源，包括技术报告、代码及预训练模型。

参考文献

[1] SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2026年3月25日星期三

SoulX-LiveAct实时数字人：2张显卡20FPS流式生成，支持小时级无限时长开源模型

Tags:

实时数字人

AI生成模型

开源项目

实时交互

小时级生成

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

挑战：实时数字人的"长跑"难题

核心突破：Neighbor Forcing 与 ConvKV Memory

Neighbor Forcing：让每一帧都有"好邻居"

ConvKV Memory：告别显存焦虑

性能表现：不仅是快，更是极致的稳

实验结果：刷新 SOTA 榜单

原理详解 -- 深度解析SoulX-LiveAct 的底层逻辑：如何重构生成范式？

Neighbor Forcing：从"自顾自"到"步调一致"

ConvKV Memory：从"无限增长"到"空间折叠"

开源与未来

参考文献

技术交流

没有评论:

发表评论

腾讯开源MegaStyle：140万风格数据集+风格迁移新SOTA，模型代码已公开

标签

2026年3月25日星期三

SoulX-LiveAct实时数字人：2张显卡20FPS流式生成，支持小时级无限时长开源模型

Tags: 实时数字人 AI生成模型 开源项目 实时交互 小时级生成

总结速览

解决的问题

提出的方案

应用的技术

达到的效果

挑战：实时数字人的"长跑"难题

核心突破：Neighbor Forcing 与 ConvKV Memory

Neighbor Forcing：让每一帧都有"好邻居"

ConvKV Memory：告别显存焦虑

性能表现：不仅是快，更是极致的稳

实验结果：刷新 SOTA 榜单

原理详解 -- 深度解析SoulX-LiveAct 的底层逻辑：如何重构生成范式？

Neighbor Forcing：从"自顾自"到"步调一致"

ConvKV Memory：从"无限增长"到"空间折叠"

开源与未来

参考文献

技术交流

没有评论:

发表评论

腾讯开源MegaStyle：140万风格数据集+风格迁移新SOTA，模型代码已公开

Tags:

实时数字人

AI生成模型

开源项目

实时交互

小时级生成