Soul AI发布开源模型SoulX-LiveAct,采用Neighbor Forcing和ConvKV Memory技术,仅需2张H100/H200显卡即可实现20FPS实时流式推理,支持小时级无限时长数字人生成,解决了长视频身份漂移和显存爆炸问题。适合开发者和研究人员用于实时交互应用。
Tags:
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
作者:Dingcheng Zhen等
项目页:https://soul-ailab.github.io/soulx-liveact/
代码仓库:https://github.com/Soul-AILab/SoulX-LiveAct
Hugging Face:https://huggingface.co/Soul-AILab/LiveAct
亮点直击
在数字人技术从"实验室点播"迈向"直播间实战"的过程中,行业始终被两大阴云笼罩:一是长时生成的崩溃,视频跑着跑着脸就"化"了;二是算力的黑洞,为了维持流畅度往往需要堆砌昂贵的算力集群。 近日,Soul AI团队发布了最新开源模型 SoulX-LiveAct。该模型通过创新的 Neighbor Forcing 策略和 ConvKV Memory 机制,在仅需2张H100/H200显卡的情况下,实现了20 FPS的实时流式推理,且支持真正意义上的"无限时长"生成,彻底解决了长视频生成的显存爆炸与动作漂移问题。
总结速览
解决的问题
不一致的学习信号:现有的大多数强制策略在传播样本级表示时,扩散状态不匹配,导致学习信号不一致和收敛不稳定。 推理效率限制:历史表示无限制增长且缺乏结构,阻碍了缓存状态的有效重用,严重限制了推理效率,无法实现真正无限的视频生成。
提出的方案
Neighbor Forcing: 提出了一种扩散步骤一致的自回归(AR)公式,将时间上相邻的帧作为潜在邻居在相同的噪声条件下进行传播。 该设计提供了一个分布对齐且稳定的学习信号,同时在整个AR链中保留了漂移。 通过利用在相同扩散步骤下评估的时间相邻帧的潜在局部平滑性,使得AR建模更加容易和稳定。 ConvKV Memory: 引入了一种结构化的ConvKV记忆机制,将因果注意力中的键(keys)和值(values)压缩成固定长度的表示。 这使得恒定内存推理和真正的无限视频生成成为可能,而无需依赖短期运动帧内存。 利用轻量级一维卷积,在不引入额外架构复杂性的情况下,有效总结了长期上下文信息。
应用的技术
自回归(AR)扩散模型:结合扩散建模与因果AR生成,支持流式推理和避免固定长度限制。 DiT (Diffusion Transformer):SoulX-LiveAct 采用 DiT 模型,并结合 Flow Matching 技术。 音频交叉注意力:用于注入音频条件,实现唇部同步和情感表达。 块级AR扩散策略:将序列划分为连续的块进行生成。 FP8精度、序列并行和操作融合:优化实时系统,提高硬件效率。 Emotion and Action Editing Module:辅助模块,用于控制面部表情和姿势。
达到的效果
显著改进:与现有AR扩散方法相比,显著改善了训练收敛性、小时级生成质量和推理效率。 实时性能:SoulX-LiveAct 能够实现小时级实时人物动画,在两块NVIDIA H100或H200 GPU上支持20 FPS的实时流式推理。 SOTA性能:在唇部同步准确性、人物动画质量和情感表达方面达到了最先进的性能,同时具有最低的推理成本。 计算效率:每帧512x512分辨率的计算成本为27.2 TFLOPs,远低于之前的AR扩散方法(例如,Live-Avatar的39.1 TFLOPs/帧)。 长视频一致性:在长视频生成中保持了稳定的身份表示和细粒度细节,解决了现有方法中常见的身份漂移和细节不一致问题。
挑战:实时数字人的"长跑"难题
目前的自回归(AR)扩散模型在视频生成上展现了巨大潜力,但在迈向"小时级"甚至"无限时"实时交互时,面临着两大瓶颈:
训练不一致性:传统的Forcing策略在传播过程中存在扩散状态不匹配,导致信号不稳定,数字人容易在长时间生成后"崩坏"。 显存黑洞:随着生成长度增加,KV Cache(键值缓存)呈线性增长,单卡显存难以支撑长达数小时的连续对话。
核心突破:Neighbor Forcing 与 ConvKV Memory
为了攻克上述难题,SoulX-LiveAct 提出了两项核心技术创新:
Neighbor Forcing:让每一帧都有"好邻居"
研究团队提出了一种扩散步一致(diffusion-step-consistent)的自回归公式。通过将时间相邻帧作为"潜在邻居",并在相同的噪声条件下进行传播,确保了学习信号的分布对齐。这不仅提升了生成的稳定性,还让数字人的动作衔接更加平滑。
ConvKV Memory:告别显存焦虑
受限于长程注意力机制的开销,SoulX-LiveAct 引入了结构化的 ConvKV 存储机制。它将因果注意力中的键(Keys)和值(Values)压缩为固定长度的表示,使得推理时的显存占用保持恒定。无论生成的视频是1分钟还是1小时,显存消耗始终在掌控之中。
性能表现:不仅是快,更是极致的稳
在多项基准测试中,SoulX-LiveAct 展现出了统治级的表现:
实时流式推理:在双卡(H100/H200)环境下达到 20 FPS,满足高频交互需求。 极致一致性:支持小时级别的连续生成,身份特征(Identity)稳定,细节不"掉件",不会出现常见的面部扭曲或着装突变。 多模态驱动:支持图像、音频及文本指令驱动,能够生成表情生动、情绪可控且拥有丰富全身动作的数字人。
实验结果:刷新 SOTA 榜单
量化指标显示,SoulX-LiveAct 在唇形同步准确度(Lip-sync Accuracy)、人体动画质量以及情绪表达力上均达到了 SOTA 水平,且推理成本远低于同类模型。
原理详解 -- 深度解析SoulX-LiveAct 的底层逻辑:如何重构生成范式?
如果说之前的技术是在"缝补"旧框架,SoulX-LiveAct 则是直接在扩散模型(Diffusion Models)的根基上动了手术。
Neighbor Forcing:从"自顾自"到"步调一致"
在自回归视频生成中,每一帧的生成都依赖于前一帧。传统的 Teacher Forcing 存在一个隐形杀手:扩散步偏移。
技术痛点:通常模型在训练时,第 t 帧和第 t-1 帧往往处于不同的噪声水平。推理时,前一帧的微小噪声预测偏差会迅速放大。
SoulX-LiveAct 的解法:我们提出了邻域强迫策略。在训练阶段,强行让相邻帧处于相同的扩散时间步 s。
数学直觉:通过这种设计,模型学习到的不再是单一帧的去噪,而是相邻帧之间的条件联合分布。这相当于给模型建立了一个"局部信任域",确保了在推理无限长序列时,每一帧都在前一帧的"稳健预测范围"内,从而彻底杜绝了面部崩坏。
ConvKV Memory:从"无限增长"到"空间折叠"
Transformer 架构最令人头疼的就是其注意力机制的计算复杂度随长度增长。对于实时数字人,这无异于自杀。
传统做法:缓存所有历史帧的 Key 和 Value,显存随时间"爆炸"。
SoulX-LiveAct 的解法:我们引入了基于卷积的键值记忆网络(ConvKV)。它并不是粗暴地丢弃历史,而是进行空间与维度的重组。
时域压缩:利用深度可分离卷积(Depthwise Conv)对旧的 KV 缓存进行下采样,将冗余的背景、静止像素信息压缩。
因果对齐:通过因果掩码(Causal Masking)确保压缩后的记忆只包含过去的语义,而不泄露未来信息。
工程意义:这种设计将注意力机制从 O(
开源与未来
Soul AI 团队致力于推动数字人技术的普惠化。目前,SoulX-LiveAct 已全面开源,包括技术报告、代码及预训练模型。
参考文献
[1] SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论