2025年12月20日星期六

重新定义实时交互式数字人!阿里中科大等开源Live Avatar,音频到虚拟形象延迟仅100ms,长视频生成不再分段。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!扫描下方二维码,加入AIGC Studio知识星球!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料!学习/科研/工作/副业,强烈推荐!

图片

由阿里巴巴、中国科学技术大学、北京邮电大学、浙江大学提出的Live Avatar实现了全球首个实时流式音频驱动虚拟形象生成系统,突破性地解决了长时程交互中的延迟与连贯性问题。其核心技术包括:1)140亿参数扩散模型,在5块H800上以4步采样达成20 FPS实时生成;2)分块自回归架构,支持10,000秒级无限时长视频流;3)多模态同步,与Qwen3-Omni结合实现语音-表情-唇形的毫秒级对齐。实验显示,该系统在延迟(<100ms)、自然度(98%用户认可)和长时一致性(SSIM>0.92)上均达SOTA,为元宇宙、虚拟客服等场景树立新标杆。

unsetunset相关链接unsetunset

  • 论文:https://arxiv.org/abs/2512.04677
  • 项目:https://liveavatar.github.io
  • 模型:https://huggingface.co/Quark-Vision/Live-Avatar

unsetunset介绍unsetunset

Live Avatar 是一个算法系统协同设计的框架,能够实时、流式、无限时长的交互式虚拟形象视频生成。它采用一个拥有140 亿参数的扩散模型,在5 个 H800 GPU上以4 步采样即可达到20 FPS 的帧率。更重要的是,它支持分块自回归处理,能够生成长达10,000秒以上的流式视频。Live Avatar 的流式和实时特性带来了强大的交互体验:用户可以通过麦克风和摄像头进行自然的面对面对话,并在虚拟形象实时响应时获得即时的视觉反馈。通过将 Live Avatar 与 Qwen3-Omni 集成,实现了完全交互式的对话代理。

图片

unsetunset实现实时流媒体性能unsetunset

实时流媒体交互要求模型生成帧的速度快于播放速度,并支持基于前一帧的无限连续流媒体扩展。我们通过以下方式实现这一点:

采用分布匹配蒸馏将 14B 双向多步视频扩散模型转换为 4 步流媒体模型。图片本文设计了一种名为"时间步强制流水线并行化"(TPP)的新型范式,该范式将多个设备上的顺序去噪阶段解耦。该方法实现了与设备数量成正比的线性加速,有效扩展至采样步数。

这些技术结合起来,比基准提高了 84 倍FPS,无需量化即可生成超过 20 FPS 的实时视频。

unsetunset实现无限长世代unsetunset

现有的语音化身系统在长期的自回归生成过程中会出现性能退化,表现为身份漂移和颜色变化。我们将这些长期失效归因于以下三个内部现象:

  • 推理模式漂移:推理时的条件模式(例如,汇聚帧和当前目标块之间的 RoPE 相对位置)逐渐偏离训练时的设置,削弱了身份线索。
  • 分布漂移:生成的帧的分布逐渐偏离正常的、真实的视频分布,这可能是由持续存在的因素驱动的,这些因素不断推动滚动生成朝着不真实的输出方向发展。
  • 错误累积:细微的缺陷(例如,轻微的瑕疵)会逐帧累积并叠加。这种难以纠正的累积会导致质量迅速下降,并随着时间的推移产生不连贯的输出。

通过以下方式解决这些问题: Rolling RoPE:动态更新汇聚帧的 RoPE 以保持相对位置,减轻推理漂移以稳定长期身份。

  • 自适应注意力汇聚点(AAS):用生成的帧替换初始参考帧作为汇聚点,以消除导致分布漂移的持续因素。
  • 历史损坏:向 KV 缓存中注入噪声以模拟推理错误,引导模型从历史中提取运动,从汇聚帧中提取稳定细节。 这些策略结合起来,可以实现超过10,000秒的无限时长流媒体播放,而不会出现质量下降或身份漂移。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

别傻了!养生赛道哪有不用AI获取流量的,不过要变现,还是要看谈单转化

今天有个好久没联系的伙伴问我:"指挥官,有没有做过AI赋能大健康的项目? 今天有个好久没联系的伙伴问我:"指挥官,有没有做过AI赋能大健康的项目?" 我听完笑了,翻看聊天记录,他是24年初就加了我微信,将近两年了,还在AI的门外犹犹豫豫。 先甩两...