Soul App AI团队开源轻量化实时数字人生成模型SoulX-FlashHead,仅1.3B参数,在单张RTX 4090消费级显卡上即可实现96FPS流式推理与高质量画质输出。模型提供Lite(高速)与Pro(高画质)双版本,支持多路并发,解决了小模型画质差、高画质需昂贵集群的行业痛点,适用于直播、游戏NPC、AI教学等实时交互场景。
Tags:
👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future
转自:Soul社交
在实时数字人赛道,开发者们曾长期面临一个困扰:追求高画质就需要具备昂贵的 H800 集群,追求低成本就得忍受"面瘫"和画面崩坏。
为解决这一问题,继开源 14B 的实时数字人生成模型SoulX-FlashTalk 之后,2月12日,Soul App AI团队(Soul AI Lab)推出了SoulX-FlashHead。这款1.3B参数的轻量化模型,能够在单张消费级显卡( RTX 4090 )上跑出96FPS的工业级速度,同时实现高质量画质,为行业提供新的实时数字人方案。
01
SoulX-FlashHead核心亮点:
不仅是实时,更是"算力自由"
在消费级显卡上,SoulX-FlashHead 的表现:
Lite版本(高速率):单卡4090推理帧率可达96FPS,仅需6.4G显存,最高支持3路并发,让实时数字人模型真正走到了消费级终端上。
Pro版本(高画质):单卡5090推理帧率16.8FPS,双卡可实时(25fps+),FID(视觉质量指标)和Lip-sync(唇形一致指标)在benchmark上达到了SOTA,甚至超过了更大参数量的模型,解决了"小模型没好画质"的行业痛点。
02
原理介绍:
如何让 1.3B 模型"以小博大"?SoulX-FlashHead创新引入了:
训练"先知":双向蒸馏机制 (Oracle-Guided Distillation)
长视频生成的"身份漂移"一直是行业痛点。SoulX-FlashHead引入了"上帝视角"教师模型,利用 Ground Truth 作为先知锚点进行强约束。
效果: 像给模型装了校准器,无论视频多长,人物特征始终稳定。
8秒记忆:时序音频上下文缓存 (TACC)
流式生成中,音频切片太短会导致口型抖动。
创新: 强制模型缓存 8秒 历史音频特征,补偿上下文缺失。
体验: 解决"嘴瓢"和"对不上号"问题,开播即进入理想状态。
高质量数据底座:自研 VividHead 数据集
从 10,000+ 小时素材中精炼出 782 小时高质量音画数据:
严苛筛选: 经过切分、DWpose 关键点、唇形一致分数过滤等多个处理步骤,为模型提供了最纯净的"养料"。
03
客观表现:
在 HDTF 与 VFHQ 两大权威数据集的实测中,SoulX-FlashHead 展现了出色的表现:
画质新标杆:在高清视频(HDTF)评测中,Pro 版本以 8.31 (FID) 和 103.14 (FVD) 的成绩刷新纪录,视觉细腻度超过 一些"大参数"模型。
口型精准捕捉:面对野外复杂场景(VFHQ),凭借独创的"时序音频上下文缓存"策略,其 Sync-C 得分高达 5.60,大幅领先此前相关工作,解决对不上口型的尴尬。
速度"快":仅凭 1.3B 的轻量化体量,Lite 版本在单张 RTX 4090 上跑出了 96 FPS 的吞吐量。这不仅是实时基准(25 FPS)的 近4倍,推理效率更是行业同类主流模型的 100倍以上。
04
应用场景:
"人人可用"的数字人技术
今年1月,Soul AI Lab开源了实时数字人生成模型SoulX-FlashTalk,能够实现0.87s亚秒级超低延时、32FPS高帧率,并支持超长视频稳定生成。
对比SoulX-FlashTalk,SoulX-FlashHead的价值在于,将高保真技术进一步从"算力机房"解放到了"个人工作站",让更广泛的场景应用成为可能:
7x24h矩阵直播:
个人主播用一台游戏 PC,即可搭建高保真电商直播间。
游戏NPC引擎:
1.3B 体积极易集成,NPC 毫秒级响应,且不抢占核心渲染资源。
AI一对一外教:
支持 15 种语言,实时将音频转化为生动的教学画面。
Soul AI Lab坚信开源的力量。目前,SoulX-FlashHead 的权重与代码已全面开放,欢迎大家的体验和交流。
论文:
https://www.arxiv.org/pdf/2602.07449
项目:
https://soul-ailab.github.io/soulx-flashhead/
代码:
https://github.com/Soul-AILab/SoulX-FlashHead
模型:
https://huggingface.co/Soul-AILab/SoulX-FlashHead-1_3B
数据集:
https://huggingface.co/datasets/Soul-AILab/VividHead
技术交流社区免费开放
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论