AI I024: 重新定义实时交互式数字人！阿里中科大等开源Live Avatar，音频到虚拟形象延迟仅100ms，长视频生成不再分段。

2025年12月20日星期六

重新定义实时交互式数字人！阿里中科大等开源Live Avatar，音频到虚拟形象延迟仅100ms，长视频生成不再分段。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！扫描下方二维码，加入AIGC Studio知识星球！

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

扫描下方二维码，加入AIGC Studio知识星球！可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题和IT各学科入门到精通学习资料！学习/科研/工作/副业，强烈推荐！

由阿里巴巴、中国科学技术大学、北京邮电大学、浙江大学提出的Live Avatar实现了全球首个实时流式音频驱动虚拟形象生成系统，突破性地解决了长时程交互中的延迟与连贯性问题。其核心技术包括：1）140亿参数扩散模型，在5块H800上以4步采样达成20 FPS实时生成；2）分块自回归架构，支持10,000秒级无限时长视频流；3）多模态同步，与Qwen3-Omni结合实现语音-表情-唇形的毫秒级对齐。实验显示，该系统在延迟（<100ms）、自然度（98%用户认可）和长时一致性（SSIM>0.92）上均达SOTA，为元宇宙、虚拟客服等场景树立新标杆。

unsetunset相关链接unsetunset

论文：https://arxiv.org/abs/2512.04677
项目：https://liveavatar.github.io
模型：https://huggingface.co/Quark-Vision/Live-Avatar

unsetunset介绍unsetunset

Live Avatar 是一个算法系统协同设计的框架，能够实时、流式、无限时长的交互式虚拟形象视频生成。它采用一个拥有140 亿参数的扩散模型，在5 个 H800 GPU上以4 步采样即可达到20 FPS 的帧率。更重要的是，它支持分块自回归处理，能够生成长达10,000秒以上的流式视频。Live Avatar 的流式和实时特性带来了强大的交互体验：用户可以通过麦克风和摄像头进行自然的面对面对话，并在虚拟形象实时响应时获得即时的视觉反馈。通过将 Live Avatar 与 Qwen3-Omni 集成，实现了完全交互式的对话代理。

unsetunset实现实时流媒体性能unsetunset

实时流媒体交互要求模型生成帧的速度快于播放速度，并支持基于前一帧的无限连续流媒体扩展。我们通过以下方式实现这一点：

采用分布匹配蒸馏将 14B 双向多步视频扩散模型转换为 4 步流媒体模型。本文设计了一种名为"时间步强制流水线并行化"（TPP）的新型范式，该范式将多个设备上的顺序去噪阶段解耦。该方法实现了与设备数量成正比的线性加速，有效扩展至采样步数。

这些技术结合起来，比基准提高了 84 倍FPS，无需量化即可生成超过 20 FPS 的实时视频。

unsetunset实现无限长世代unsetunset

现有的语音化身系统在长期的自回归生成过程中会出现性能退化，表现为身份漂移和颜色变化。我们将这些长期失效归因于以下三个内部现象：

推理模式漂移：推理时的条件模式（例如，汇聚帧和当前目标块之间的 RoPE 相对位置）逐渐偏离训练时的设置，削弱了身份线索。
分布漂移：生成的帧的分布逐渐偏离正常的、真实的视频分布，这可能是由持续存在的因素驱动的，这些因素不断推动滚动生成朝着不真实的输出方向发展。
错误累积：细微的缺陷（例如，轻微的瑕疵）会逐帧累积并叠加。这种难以纠正的累积会导致质量迅速下降，并随着时间的推移产生不连贯的输出。
已关注

关注

重播

AIGC Studio
0/0
00:00/00:04
进度条，百分之0
播放
00:00
/
00:04
00:04
倍速
全屏
倍速播放中
0.5倍 0.75倍 1.0倍 1.5倍 2.0倍
超清流畅
继续观看
重新定义实时交互式数字人！阿里中科大等开源Live Avatar，音频到虚拟形象延迟仅100ms，长视频生成不再分段。
转载
,
重新定义实时交互式数字人！阿里中科大等开源Live Avatar，音频到虚拟形象延迟仅100ms，长视频生成不再分段。
AIGC Studio
已同步到看一看写下你的评论
视频详情

通过以下方式解决这些问题： Rolling RoPE：动态更新汇聚帧的 RoPE 以保持相对位置，减轻推理漂移以稳定长期身份。

自适应注意力汇聚点（AAS）：用生成的帧替换初始参考帧作为汇聚点，以消除导致分布漂移的持续因素。
历史损坏：向 KV 缓存中注入噪声以模拟推理错误，引导模型从历史中提取运动，从汇聚帧中提取稳定细节。这些策略结合起来，可以实现超过10,000秒的无限时长流媒体播放，而不会出现质量下降或身份漂移。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024

2025年12月20日星期六

重新定义实时交互式数字人！阿里中科大等开源Live Avatar，音频到虚拟形象延迟仅100ms，长视频生成不再分段。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！扫描下方二维码，加入AIGC Studio知识星球！

unsetunset相关链接unsetunset

unsetunset介绍unsetunset

unsetunset实现实时流媒体性能unsetunset

unsetunset实现无限长世代unsetunset

没有评论:

发表评论

Kimi K3 2。8万亿参数大模型正式发布 7月27日全面开源性能对标GPT-5。6

标签

2025年12月20日星期六

重新定义实时交互式数字人！阿里中科大等开源Live Avatar，音频到虚拟形象延迟仅100ms，长视频生成不再分段。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！扫描下方二维码，加入AIGC Studio知识星球！

unsetunset相关链接unsetunset

unsetunset介绍unsetunset

unsetunset实现实时流媒体性能unsetunset

unsetunset实现无限长世代unsetunset

没有评论:

发表评论

Kimi K3 2。8万亿参数大模型正式发布 7月27日全面开源 性能对标GPT-5。6

Kimi K3 2。8万亿参数大模型正式发布 7月27日全面开源性能对标GPT-5。6