2026年6月24日星期三

CyberVerse开源数字人Agent框架 一张照片创建AI数字分身 支持实时视频通话

CyberVerse是开源实时数字人Agent框架,基于WebRTC和多智能体架构,仅需一张照片即可生成可看、听、对话的数字人,支持语音克隆、角色记忆与RAG。适合开发者、AI爱好者及企业搭建虚拟助手,无GPU时可关闭视频模式纯语音运行,提供完整中文部署文档。

Tags:

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程
扫描下方二维码,加入AIGC Studio知识星球可以获得最新AI前沿应用/AIGC实践教程/大厂面试经验/算法刷题IT各学科入门到精通学习资料学习/科研/工作/副业,强烈推荐!
图片
图片

CyberVerse 是开源的数字人智能体平台,支持实时视频通话。你可以创建一个能看、能听、能面对面交流的 AI 智能体,体验与真实视频通话无异。

一张照片,让数字人真正「活」起来。

你是否想过拥有一个属于自己的 J.A.R.V.I.S.——能真正看见你、听见你、陪伴你的 AI?

想再次见到思念之人,听见 TA 的声音,看见 TA 对你微笑?

又或者,你一直想把某个角色带到现实世界中?

只需一张照片,CyberVerse 就能让 TA 「活」过来。

图片

CyberVerse 是一个开源的实时数字人 Agent 框架。它基于 WebRTC、人设记忆、工具、RAG 和可选的数字人视频能力,帮助你构建以语音交互为核心的 AI Agent。大概可以理解为openclaw+豆包。 总之通过CyberVerse,仅需一张照片,就可以和任何你喜欢的角色进行实时视频聊天,亦或者创建自己的数字分身,甚至还能指挥ta帮你干一点活。

图片

unsetunset相关链接unsetunset

  • 代码:https://github.com/Lynpoint/CyberVerse

unsetunset功能特性unsetunset

实时语音 Agent

语音是 CyberVerse 的默认交互方式,面向低延迟、可长时间进行的实时对话。用户可以通过麦克风与 Agent 连续交流,在模型说话时随时打断,也可以在同一轮会话中混合使用语音和文本输入。

每个角色可单独配置声线、欢迎语与人格设定,并支持语音克隆。对话过程中支持会话中断与恢复;将 inference.avatar.enabled 设为 false 时,平台会以纯语音模式运行,只发布音频流,无需本地 Avatar GPU,核心语音体验保持不变。

基于 WebRTC 的音视频

会话链路基于 WebRTC 构建,可按部署场景选择直连 P2P(内嵌 TURN / NAT 穿透)或 LiveKit SFU 模式,兼顾低延迟与复杂网络环境下的连通性。

在 standard 模式及受支持的 omni 会话中,Agent 还可以接收用户摄像头画面或屏幕共享帧作为视觉输入,实现「能听、能看」的面对面式交互,而不局限于纯文本上下文。

PersonaAgent + SubAgent 任务

CyberVerse 采用multi-agent架构:PersonaAgent 始终驻守前台,负责与用户保持流畅对话、快速响应打断和上下文切换;搜索、调研、资料整理、总结以及 HTML 报告生成等耗时工作则交给后台 SubAgent 异步执行。

这样复杂任务不会拖慢语音回合,用户可以继续说话、追问或调整方向,待 SubAgent 完成后再把结果回传给前台对话。

角色记忆与 RAG

每个角色的会话历史会持久化到本地磁盘,重新进入对话时会自动加载,保证跨会话的连续感。你还可以为角色导入知识库、文档和人物生平类素材,系统会建立索引并用于检索增强生成,让回答更贴合角色背景与设定。

可选数字人视频

当你具备 GPU 资源并希望 Agent「可见」时,可开启 avatar inference:只需一张角色参考图,即可通过 FlashHead、LiveAct 等可配置后端驱动实时面部动画、口型同步,并在不说话时播放缓存的待机视频。没有 GPU 或暂时不需要视频时,关闭该能力即可退回纯语音 Agent,同一套角色与人设配置仍可继续使用。

插件化技术栈

大脑、声音、听觉、工具、记忆和面孔均为可替换模块。你可以通过 cyberverse_config.yaml 组合 omni 模型、LLM、TTS、ASR、Embedding、RAG、工具调用与 Avatar 后端,并在 Web UI 的 /settings 中配置不同厂商的 API Key 与服务端点,按场景自由切换供应商与模型组合。

unsetunset快速开始unsetunset

环境要求

Node 18+
Go 1.25(需 protoc-gen-go、protoc-gen-go-grpc)
Conda Python 3.10+
FFmpeg, libopus-dev, libopusfile-dev, libsoxr-dev

启动步骤

# 1. 克隆仓库
git clone https://github.com/dsd2077/CyberVerse.git
cd CyberVerse

# 2. 创建环境
conda create -n cyberverse python=3.10
conda activate cyberverse

# 3. 配置API Key(编辑.env填入阿里云/火山引擎等Key)
cp infra/.env.example .env

# 4. 创建本地配置(纯语音模式)
cp infra/cyberverse_config.example.yaml cyberverse_config.yaml
# 编辑:inference.avatar.enabled: false

# 5. 安装依赖
make setup
pip install -e ".[all]"

# 6. 启动(3个终端)
# 终端1:Python推理服务
conda activate cyberverse
make inference

# 终端2:Go API服务
make server

# 终端3:前端
make frontend

# 7. 访问 http://localhost:5173

数字人视频模式(可选)

额外要求:CUDA 12.8+ GPU、PyTorch 2.8、FFmpeg(含libvpx)

# 安装FlashHead模型
pip install "huggingface_hub[cli]"
hf download Soul-AILab/SoulX-FlashHead-1_3B --local-dir ./checkpoints/SoulX-FlashHead-1_3B
hf download facebook/wav2vec2-base-960h --local-dir ./checkpoints/wav2vec2-base-960h

unsetunset结论unsetunset

CyberVerse 补齐了传统数字人项目的短板,将实时音视频通话、图片驱动虚拟形象、大模型 Agent 任务能力三者完整融合。分层智能体架构平衡交互流畅度与复杂计算需求,双模型方案覆盖高低配硬件,插件化设计大幅降低二次开发成本。无论是个人搭建专属 AI 助手、企业客服数字人、虚拟直播角色,还是教学陪伴型虚拟形象,都能基于这套开源框架快速落地。完整中文部署文档、性能调优方案与开源协议,也让中小团队无需从零搭建底层音视频与多模态交互链路,推动实时交互式数字人走向轻量化、可自主部署普及阶段。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

Agent研究爆发期:190篇必读论文与500个开源项目源码免费获取

本文聚焦当前快速发展的Agent赛道,涵盖大模型智能体的决策逻辑、记忆机制、多智能体协作等前沿方向。适合从初学者到资深研究员,提供190篇必读论文、321个谷歌落地项目案例及500个开源AI智能体应用,扫描文末二维码回复指定关键词即可免费获取全部资源。 Tags: Agent ...