2025年9月4日星期四

InfinityHuman:让声音驱动的虚拟人,真正“活”起来?

最近,一款名为 InfinityHuman 的新研究悄然上线 Github 与 arXiv

最近,一款名为 InfinityHuman 的新研究悄然上线 Github 与 arXiv,背后是字节跳动与浙江大学的联合团队。它的目标很简单——解决音频驱动的人体动画在长时生成上的"老大难问题",让虚拟人能够说得自然、动得流畅、表情手势不崩坏

听起来是不是有点科幻感?但实际上,这一步,离我们想象中的 AI 数字人虚拟主播、甚至 未来的沉浸式社交,又近了一点。

今天我们就来好好拆解一下:InfinityHuman 到底厉害在哪里,又有哪些值得关注的不足?


01 音频驱动动画的老毛病:崩、飘、假

在聊新东西之前,先看看老问题。

现有的音频驱动动画模型,普遍采用"逐帧延续"的方式,也就是说,模型生成一帧,下一帧就接着上去,靠重叠部分维持连贯性。

问题来了:

  • 累积误差 → 每多生成几秒,人物五官就可能轻微变形,越到后面越崩。

  • 身份漂移 → 开始时还是"小张",几秒后可能慢慢变成了"小李"。

  • 背景不稳 → 本来是干净的书房,生成到后面可能出现墙面扭曲、颜色发灰。

  • 手部动作生硬 → 嘴巴和声音同步得还行,但双手像被粘在桌子上一样不自然。

如果只是短视频还好,一分钟以上的长时生成就会让这些问题暴露得非常明显。对于要做虚拟直播或数字人的行业来说,这就是"卡脖子"的问题。

图片


02 InfinityHuman 的解法:粗到精、姿态先行

InfinityHuman 的思路,和以往不同。

它采用了一个 coarse-to-fine(粗到精) 的两步走方案:

  1. 先生成低分辨率动作表示(pose)

    • 通过声音驱动先"搭骨架",得到一个与音频同步的姿态序列。

    • 这一步相当于"打底稿",保证全局节奏、动作和嘴型先对齐。

  2. 再用姿态引导细化器(pose-guided refiner)修正

    • 模型会以首帧为"视觉锚点",不断参照它来校正身份和画面。

    • 在低分辨率动作的指导下,逐步生成高清画面,避免"越画越跑偏"。

这就像先画动画分镜,再精修细节,而不是边画边补。

效果如何?在实验里,InfinityHuman 在多个维度(身份保持、唇形同步、画面稳定性)都比传统方法更稳。尤其是长视频,不容易崩坏。


03 "手势奖励":让双手也会说话

很多虚拟人视频尴尬的一点是——手完全不自然

InfinityHuman 引入了一个有意思的机制:手部专属奖励(hand-specific reward)

图片


团队给模型喂了大量高质量的手部动作数据,然后在训练时特别加权手势的准确性。结果是:

  • 手的结构清晰了,不再像"螃蟹钳"一样乱动。

  • 和语音、表情的节奏更同步,甚至能自然打手势。

  • 在长时生成中,也不会出现"手消失""手穿模"的情况。

这点在虚拟主播、数字老师这类场景里,算是非常实用的突破。毕竟,人类交流里,手势往往能传递大量情绪和信息。


04 实验表现:真有那么神吗?

研究团队在两个主流数据集 EMTD 和 HDTF 上做了对比实验。

结果显示,InfinityHuman 在以下方面都有提升:

  • 视频质量:整体更清晰,背景更稳定。

  • 身份一致性:长时生成中,人物形象不容易"跑偏"。

  • 唇型同步:嘴巴和声音的对齐度更高。

  • 手势自然度:明显优于其他模型。

同时,团队还做了消融实验,证明了"姿态引导 + 手部奖励"这两大设计确实是关键。

当然,作为研究成果,它的实验环境还是偏学术范,距离真实落地还有一些差距,比如:

  • 目前主要测试的是相对干净的数据集,复杂场景(多人对话、户外背景)尚未验证。

  • 视频时长虽然延长了,但"长时"到底能撑到几分钟、几十分钟,仍需更多公开测试。

  • 代码尚未完全开源(项目页写的是"即将公开"),所以外部开发者还没法直接上手。

05 能干啥?未来场景一览

如果 InfinityHuman 真能走向落地,它可能会带来不少应用想象力:

  • 虚拟主播 / 虚拟偶像:声音一输入,就能让角色稳定地说话、打手势、互动。

  • 教育 / 培训:AI 老师不仅能讲课,还能边说边做手势,增加真实感。

  • 客服 / 数字人助理:打破"木头客服"的感觉,语音驱动就能生成自然动作。

  • 影视 / 二创:长视频生成的稳定性提升,意味着可以减少后期修复的工作量。


06 冷静看待:优势与不足并存

总结一下 InfinityHuman 的 优点

  • 解决长时生成的漂移问题,画面更稳。

  • 手部动作自然化,提升交流真实感。

  • 身份保持更强,避免"人物换脸"式尴尬。

  • 实验指标领先,在学术基准上表现优异。

同时我们也要看到它的 不足

  • 还没完全开源,想试用需要等团队放出代码。

  • 在复杂环境(多人、动态背景)下的表现未知。

  • 商业化落地需要解决速度、算力成本等问题。

所以,它不是"颠覆一切"的黑科技,而是一个在正确方向上扎实迈进的一步


InfinityHuman 的出现,让"声音驱动虚拟人"的研究进入了一个新阶段。相比过去动不动就"崩坏"的模型,它在长视频的稳定性、手部动作的自然性上确实有突破。

但它依然处在研究早期,未来能不能走向大规模应用,还要看代码开源后的社区反馈,以及在真实场景下的压力测试。

换句话说,它离"真正的虚拟主播"还有距离,但已经让我们看到了 声音 + 动画 + AI 结合的更多可能性。

或许在不远的将来,当你打开直播间,看到的那个主播,不仅声音真实、动作流畅,甚至手势都能和语气同步——你很难再分清,他到底是"人",还是"虚拟人"。

参考文献:https://infinityhuman.github.io/

如果您还对AI的其他思路感兴趣,欢迎加入我们的社群!
后台给我回复"加入社群"即可!

没有评论:

发表评论

3999让机器人家务全包,抱抱脸联合创始人:开源YYDS!

还附带超详细组装和操作教程 不圆 时令 发自 凹非寺 量子位 | 公众号 QbitAI 3999元 ,不够买一台苹果手机,但能DIY个机器人(doge)。 还是家务全能型选手! 不仅能擦桌子: 还能给植物浇水: 甚至可以用逗猫棒陪猫玩: 这个名为 XLeRobot 的机器人开...