2026年4月19日星期日

SentiAvatar:0。3秒生成6秒数字人动作,开源模型与数据集让3D数字人更自然

SentiAvatar是SentiPulse联合人大高瓴AI学院发布的3D数字人动作生成框架,实现0.3秒生成6秒动作的实时性能。自建SuSuInterActs数据集(37小时多模态语料)在R@1达43.64%,跨数据集BEATv2上FGD 4.941、BC 8.078刷新SOTA。框架、角色模型及数据集已全面开源,适合AI研究者、数字人开发者及AIGC从业者使用。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片

当你和3D数字人对话时,有没有遇到过这种诡异时刻:它的嘴在动,但表情依旧僵硬;手在挥舞,但和说话内容完全脱节;更糟的是,那种外表像真人但动作不自然的违和感,让人瞬间陷入"恐怖谷"。

问题的根源在于,人类沟通从来不只是语言或动作的单一呈现。一个耸肩可以表达无奈,一个点头传递认同,而微微扬起的眉毛则暗示怀疑。这些由手势、姿态与面部表情构成的非语言信号,是真实交流中不可或缺的关键维度。

AI初创公司SentiPulse联合中国人民大学高瓴人工智能学院最新发布的SentiAvatar框架,正是为解决这一难题而生。该框架在自建数据集SuSuInterActs上实现了R@1 43.64%(接近次优基线2倍)的突破性成绩,在BEATv2跨数据集评测中FGD 4.941、BC 8.078双刷SOTA,更实现了0.3秒内生成6秒动作的实时性能。今天,SentiAvatar框架、SuSu角色模型及SuSuInterActs数据集已全球同步开源。

图片

相关链接

  • 论文:https://arxiv.org/abs/2604.02908
  • 代码:https://github.com/SentiAvatar/SentiAvatar
  • 数据:https://huggingface.co/datasets/Chuhaojin/SuSuInterActs
  • 主页:https://sentiavatar.github.io

论文介绍

图片

SentiAvatar 的核心愿景是构建一套全栈式情感驱动数字人生成框架。作者提出,真正的交互式数字人需要实现三个层次的统一:生理层(面部肌肉运动)+心理层(情感状态)+行为层(肢体语言)的统一建模。通过在多个维度进行端到端训练,SentiAvatar 能够实现自然流畅的情感表达和智能互动。

方法概述

数据集构建:SuSuInterActs

图片

为了解决高质量数据稀缺的问题,研究团队构建了SuSuInterActs数据集,包含2.1万段片段、总计37小时的多模态对话语料。该数据集通过光学动捕技术采集,围绕单一虚拟角色SUSU,涵盖了同步的语音、全身动作与面部表情,为模型训练提供了丰富的高质量数据。

动作基础模型:Motion Foundation Model

在预训练阶段,研究团队引入了Motion Foundation Model,在超过20万条异质动作序列上训练通用运动先验。这一模型不仅具备丰富的动作先验知识,还通过引入奥运运动、仿生动作等专项类别,扩展了动作先验的覆盖边界,为后续的精细动作生成提供了坚实基础。

核心架构:plan-then-infill

图片

SentiAvatar采用了创新的双通道并行架构plan-then-infill,将句子级语义规划与逐帧的韵律驱动插值解耦。身体动作通道通过LLM语义规划器生成稀疏关键帧动作Token序列,再由Body Infill Transformer在相邻关键帧之间填入中间帧,确保动作的连续性和节奏感。面部表情通道则直接绕过LLM规划阶段,由Face Infill Transformer从音频特征生成面部Token序列,实现面部表情与语音韵律的高度耦合。

实验

定性分析

对不同方法生成的动作进行定性比较。每一行显示给定动作和语音的关键帧序列。相同颜色的文本和箭头表示相同的时间步。红色箭头表示错误的动作。图片

定量结果

对 SuSuInterActs 进行定量比较。粗体:最佳;↑/↓:数值越高/越低越好。ESD 单位为秒。“†”表示采用逐词自回归生成的 T2M-GPT 变体。图片

结论

论文介绍了一种名为SentiAvatar的新型框架,用于构建高度表现力的交互式 3D 数字人,并通过我们开发的实时角色 SuSu 进行了演示。为了解决交互式对话数据匮乏以及动作与韵律同步的难题,引入了时长 37 小时的多模态对话语料库SuSuInterActs ,并提出了一种基于预训练 Motion Foundation 模型(该模型已在超过 20 万个序列上进行训练)的“先规划后填充”架构。该设计有效地将高层语义规划与帧级音频驱动插值解耦,确保生成的动作既符合上下文语境,又与语音节奏同步。实验表明,SentiAvatar 在 SuSuInterActs 和 BEATv2 数据集上均取得了最先进的性能。凭借高效的生成速度(6 秒输出仅需 0.3 秒)和开源资源,我们的工作为未来自然、实时虚拟人交互的研究奠定了坚实的基础。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

一人公司踩的4个坑及解法:AI亦仁免费咨询,限时3天体验

一人公司创业者常陷入精力分散、不建资产等4个坑。生财有术将创始人亦仁的150万字知识库做成AI分身,30秒给出具体解法。原价5万多元的咨询,现圈友免费,非圈友可领3天体验卡(限时)。适合创业新手、一人公司、时间碎片化人群。

Tags:

图片

你好,我是元小二,专注分享 AI 提效、一人公司实践和个人成长。这里有 OpenClaw、Claude Code、自动化流程、虚拟产品,也有理财、思考和生活系统。

欢迎关注,也欢迎后台留言告诉我,你对哪部分内容感兴趣。


朋友们,这是一个喜大普奔的好消息:
生财有术把亦仁老板做成了AI分身,所有圈友可以随时免费咨询!

Alt text

要知道,找亦仁本人做一次咨询,价格是7个龙珠,换算成人民币——5万多块。而且做过的圈友都说:这钱花得超值。

现在,这个超值的智慧,被装进了一个AI分身。


一、我的困惑被它30秒解开了

于是,我试着把自己的困惑发给它试试。

先说说我的情况:一人公司,还得带娃(现在两个孩子大了,一般就负责接送和看作业),时间碎片化,没法做直播那种重度项目。我深耕于AI赛道,也擅长用公众号和小红书获取流量,最少的mvp是可以跑通的。

问题是:跑通之后就没心力继续做了,然后把经验共享给别人合作分钱,换来生活费,循环往复。

我的困惑:我到底该怎么做才能获得十倍增长呢?而不是重复劳动。

我把这个困惑发给了AI亦仁,30秒内得到了完整回复。

Alt text

二、AI亦仁给的回复,让我看完沉默了三分钟

AI亦仁的判断是:最致命的卡点是,精力与注意力的极度分散

这话太准了。

它说:你最大的优势不是”能挖赛道”,而是”能快速跑通闭环”。但你跑通后立刻把项目共享出去,本质上是在用勘探能力换生活费,而不是在积累自己的资产。

就像一个经验丰富的地质队,帮人找到金矿,拿完勘探费就撤了,金矿的长期收益和你无关。

而且因为项目太多了,而一人公司精力是有限的,必须对某个项目进行长期深挖,才能获得超额收益。

1. 它给出的解法非常具体

不是叫你”放大格局”这种废话。

而是说:从你跑通的所有赛道里,挑一个最有感觉的,自己做一个带个人印记的账号或店铺,哪怕每天只花1小时,粉丝、数据、成交记录——全是你的资产,会随时间增值。

2. 它还点出了最容易掉进去的陷阱

一是追求”完美的长期项目”,总觉得当下做的配不上自己的野心,于是一直寻找,一直不扎根。

二是等”有时间了”再开始,但创业能力恰恰是在资源受限、时间碎片化的情况下磨出来的。

三是把合作赚钱当终点,沉溺于来钱快、没风险的模式,永远长不出自己的肌肉。

四是心态上的“孤军奋战”与“闭门造车”。这是许多一人公司常犯的通病,以为一人公司就是一个人把所有的活都干了,其他一人公司更强调的是分工和合作。


三、AI亦仁的知识库,是150万字的真实沉淀

这不是随便套了个GPT的壳。

AI亦仁的知识库,来自亦仁本人150万字的内容积累,适合回答方法论和真实困惑类的问题。

我之前遇到这类创业困惑,要么自己在脑子里转圈,要么发给朋友问,朋友也说不出个所以然。换成AI亦仁之后,30秒给出的回复,条理清晰,直击要害,还有具体的行动建议。

我对市面上那些”AI导师”产品的评价是:大多数都在讲正确的废话。

但AI亦仁不一样,它有真实的价值观和方法论在背后撑着。


四、非圈友也能体验,限时3天

如果你现在还不是生财有术会员,我为大家申请了3天体验卡。

Alt text

体验期间可以访问生财有术所有内容,还有小助理直播讲解具体用法。

生财有术是一个做了好十年的创业社群,我也已经第六年续费了。

能把核心资源做成AI分身免费开放给所有圈友——这件事本身,就说明这个社群的格局。


赶快去试试AI亦仁吧,把你心里埋了很久的困惑发给它,我的朋友。

人生是一场无限游戏,乾坤未定,你我均是黑马。


👇关注公众号【元小二学AI】,点击菜单栏,免费领取最新的AI学习教程。


温馨提示:

公众号修改了推送规则,很多人发现收到的消息不及时。

为了能够第一时间收到消息,不错过优质的AI教程,请星标⭐置顶本公众号,以便第一时间获取精选内容!




          我们的口号:学好AI,享受生活


关注【元小二学AI】,你会持续看到更接地气的 AI 学习内容。

这里不讲太多空概念,更关注普通人怎么把 AI 真正用到工作、内容创作和日常生活里。

包括工具实操、提效流程、自动化思路,以及一人公司场景下的真实应用。

你能在这里找到教程、案例、脚本思路和实战经验,少走弯路,早点把 AI 变成自己的帮手。



SentiAvatar:0。3秒生成6秒数字人动作,开源模型与数据集让3D数字人更自然

SentiAvatar是SentiPulse联合人大高瓴AI学院发布的3D数字人动作生成框架,实现0.3秒生成6秒动作的实时性能。自建SuSuInterActs数据集(37小时多模态语料)在R@1达43.64%,跨数据集BEATv2上FGD 4.941、BC 8.078刷新SOT...