CyberVerse是开源实时数字人Agent框架,基于WebRTC和多智能体架构,仅需一张照片即可生成可看、听、对话的数字人,支持语音克隆、角色记忆与RAG。适合开发者、AI爱好者及企业搭建虚拟助手,无GPU时可关闭视频模式纯语音运行,提供完整中文部署文档。
Tags:
CyberVerse 是开源的数字人智能体平台,支持实时视频通话。你可以创建一个能看、能听、能面对面交流的 AI 智能体,体验与真实视频通话无异。
一张照片,让数字人真正「活」起来。
你是否想过拥有一个属于自己的 J.A.R.V.I.S.——能真正看见你、听见你、陪伴你的 AI?
想再次见到思念之人,听见 TA 的声音,看见 TA 对你微笑?
又或者,你一直想把某个角色带到现实世界中?
只需一张照片,CyberVerse 就能让 TA 「活」过来。
CyberVerse 是一个开源的实时数字人 Agent 框架。它基于 WebRTC、人设记忆、工具、RAG 和可选的数字人视频能力,帮助你构建以语音交互为核心的 AI Agent。大概可以理解为openclaw+豆包。 总之通过CyberVerse,仅需一张照片,就可以和任何你喜欢的角色进行实时视频聊天,亦或者创建自己的数字分身,甚至还能指挥ta帮你干一点活。
相关链接
代码:https://github.com/Lynpoint/CyberVerse
功能特性
实时语音 Agent
语音是 CyberVerse 的默认交互方式,面向低延迟、可长时间进行的实时对话。用户可以通过麦克风与 Agent 连续交流,在模型说话时随时打断,也可以在同一轮会话中混合使用语音和文本输入。
每个角色可单独配置声线、欢迎语与人格设定,并支持语音克隆。对话过程中支持会话中断与恢复;将 inference.avatar.enabled 设为 false 时,平台会以纯语音模式运行,只发布音频流,无需本地 Avatar GPU,核心语音体验保持不变。
基于 WebRTC 的音视频
会话链路基于 WebRTC 构建,可按部署场景选择直连 P2P(内嵌 TURN / NAT 穿透)或 LiveKit SFU 模式,兼顾低延迟与复杂网络环境下的连通性。
在 standard 模式及受支持的 omni 会话中,Agent 还可以接收用户摄像头画面或屏幕共享帧作为视觉输入,实现「能听、能看」的面对面式交互,而不局限于纯文本上下文。
PersonaAgent + SubAgent 任务
CyberVerse 采用multi-agent架构:PersonaAgent 始终驻守前台,负责与用户保持流畅对话、快速响应打断和上下文切换;搜索、调研、资料整理、总结以及 HTML 报告生成等耗时工作则交给后台 SubAgent 异步执行。
这样复杂任务不会拖慢语音回合,用户可以继续说话、追问或调整方向,待 SubAgent 完成后再把结果回传给前台对话。
角色记忆与 RAG
每个角色的会话历史会持久化到本地磁盘,重新进入对话时会自动加载,保证跨会话的连续感。你还可以为角色导入知识库、文档和人物生平类素材,系统会建立索引并用于检索增强生成,让回答更贴合角色背景与设定。
可选数字人视频
当你具备 GPU 资源并希望 Agent「可见」时,可开启 avatar inference:只需一张角色参考图,即可通过 FlashHead、LiveAct 等可配置后端驱动实时面部动画、口型同步,并在不说话时播放缓存的待机视频。没有 GPU 或暂时不需要视频时,关闭该能力即可退回纯语音 Agent,同一套角色与人设配置仍可继续使用。
插件化技术栈
大脑、声音、听觉、工具、记忆和面孔均为可替换模块。你可以通过 cyberverse_config.yaml 组合 omni 模型、LLM、TTS、ASR、Embedding、RAG、工具调用与 Avatar 后端,并在 Web UI 的 /settings 中配置不同厂商的 API Key 与服务端点,按场景自由切换供应商与模型组合。
快速开始
环境要求
Node 18+
Go 1.25(需 protoc-gen-go、protoc-gen-go-grpc)
Conda Python 3.10+
FFmpeg, libopus-dev, libopusfile-dev, libsoxr-dev
启动步骤
# 1. 克隆仓库
git clone https://github.com/dsd2077/CyberVerse.git
cd CyberVerse
# 2. 创建环境
conda create -n cyberverse python=3.10
conda activate cyberverse
# 3. 配置API Key(编辑.env填入阿里云/火山引擎等Key)
cp infra/.env.example .env
# 4. 创建本地配置(纯语音模式)
cp infra/cyberverse_config.example.yaml cyberverse_config.yaml
# 编辑:inference.avatar.enabled: false
# 5. 安装依赖
make setup
pip install -e ".[all]"
# 6. 启动(3个终端)
# 终端1:Python推理服务
conda activate cyberverse
make inference
# 终端2:Go API服务
make server
# 终端3:前端
make frontend
# 7. 访问 http://localhost:5173
数字人视频模式(可选)
额外要求:CUDA 12.8+ GPU、PyTorch 2.8、FFmpeg(含libvpx)
# 安装FlashHead模型
pip install "huggingface_hub[cli]"
hf download Soul-AILab/SoulX-FlashHead-1_3B --local-dir ./checkpoints/SoulX-FlashHead-1_3B
hf download facebook/wav2vec2-base-960h --local-dir ./checkpoints/wav2vec2-base-960h
结论
CyberVerse 补齐了传统数字人项目的短板,将实时音视频通话、图片驱动虚拟形象、大模型 Agent 任务能力三者完整融合。分层智能体架构平衡交互流畅度与复杂计算需求,双模型方案覆盖高低配硬件,插件化设计大幅降低二次开发成本。无论是个人搭建专属 AI 助手、企业客服数字人、虚拟直播角色,还是教学陪伴型虚拟形象,都能基于这套开源框架快速落地。完整中文部署文档、性能调优方案与开源协议,也让中小团队无需从零搭建底层音视频与多模态交互链路,推动实时交互式数字人走向轻量化、可自主部署普及阶段。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论