AI I024: Voicebox开源：本地AI语音克隆平替，全程隐私且免费

2026年5月25日星期一

Voicebox开源：本地AI语音克隆平替，全程隐私且免费

Voicebox 是 GitHub 上 28000+ Star 的开源项目，作为 ElevenLabs 和 WisprFlow 的本地平替。免费使用，无需每月付费；支持声音克隆（几秒音频即可）、23 种语言、7 个 TTS 引擎（含 CPU 可跑的 Kokoro）。提供 MCP 服务器供 Agent 调用，可自定义人设与情绪标签；内置全局听写快捷键。适用于注重数据隐私的开发者、创作者。模型按需下载（最小 82M），支持 macOS/Windows，苹果 M 芯片和 NVIDIA 显卡可加速。

Tags:

语音克隆

开源AI

本地语音

隐私保护

免费工具

想要克隆自己的声音做配音，ElevenLabs 当属首选，它这个功能做的的确不错。

但每月几十刀的费用，加上音频数据要上传到他们服务器，对不少人来说都是个门槛。

对于语音输入也有不错的工具，比如 WisprFlow，可同样要付费，隐私同样存疑。

今天在 GitHub 上发现一个名叫 Voicebox 的开源项目，狂揽了 28000+ Star。

它的核心定位是 ElevenLabs 和 WisprFlow 的开源平替，以本地优先的 AI 语音工作室。

在语音市场上，ElevenLabs 主攻语音输出，WisprFlow 主攻语音输入，它两算是各占一边。

这一次 Voicebox 把两边都做了，额外还用一个本地 LLM 把中间的改写、人格化环节串了起来。

也就是说，我们克隆出来的声音、录下的语音片段，全程不会离开自己的电脑，数据隐私安全。

先来说说工具的声音克隆这块。

只需要我们提供几秒钟的参考音频，就能生成一个属于我们自己的声音模型。

覆盖 23 种语言，从英语、中文到阿拉伯语、印地语、斯瓦希里语，主流语言都支持。

内置 7 个 TTS 引擎，包括 Qwen3-TTS、Chatterbox、LuxTTS、Kokoro 等。

不同引擎各有作用，比如 Chatterbox Turbo 支持 [laugh]、[sigh] 这类情绪标签，能让生成的语音带笑声、叹气等真实情绪。

而 Qwen3-TTS 则擅长多语言克隆，还能听懂「慢一点说」「用耳语」这种自然语言指令。

至于没有独立显卡的同学，可以选 Kokoro，模型只有 82M，CPU 也能跑得动。

如果不想克隆自己的声音，项目也内置了 50 多个预设音色，可以直接开箱可用。

生成出来的音频还能进行编辑，调音、混响、延迟、压缩这些参数都能实时预览。

接下来要说的，这个项目另一个让我觉得挺有意思的功能，那就是可以给 Agent 工具配音。

Voicebox 提供一个 MCP 服务器协议，任何支持 MCP 的 Agent 工具，都能调用它来发声。

比如将其接入到 Claude Code，只需要一行命令：

claude mcp add voicebox \  --transport http \  --url http://127.0.0.1:17493/mcp \  --header"X-Voicebox-Client-Id: claude-code"

添加完成后，Claude Code 就能直接用我们克隆的声音说一句「测试通过，可以合并」。

我们还能在设置里给不同的 Agent 绑定不同的声音，听声音就能分辨是哪个 Agent 在报告。

这样我们在写代码的间隙，就能听到熟悉的声音报告进度，让我们的开发体验更上一个台阶。

另外 Voicebox 还有一个更进阶的玩法，叫人格化。

我们可以给每个声音绑一段自由格式的人设描述，比如「冷静的工程师」「毒舌的代码审查官」。

之后无论是手动生成，还是 Agent 通过 MCP 调用，文本都会先经过本地 LLM 按人设改写，再合成语音。

也就是说，Agent 说出来的话不只是声音由你定的，连说话风格也可以自由设定。

不止于此，还提供一个全局快捷键听写功能，按住热键说话，松开后文字会自动粘贴到当前聚焦的输入框。

在 macOS 上的体验做得不错，会通过辅助功能 API 精确识别目标文本框，粘贴过程不会污染剪贴板。

至于安装，项目提供了 macOS、Windows 的安装包，可到官网或 Releases 页面下载。

首次使用会自动下载模型权重，Kokoro 只有 82M，Qwen3-TTS 要几个 G，可按需下载。

再提一句，在苹果 M 芯片上跑，速度比通用方案快不少，NVIDIA 显卡则会自动走 CUDA。

至于 REST API 和 MCP Server 默认监听本地 17493 端口，文档地址在 http://127.0.0.1:17493/docs，对接自己的脚本和工具非常方便。

写在最后

讲真的，在我看来，语音 I/O 的本地化是一件迟早要发生的事。

但也不得不承认，云端在便利性上确实有优势，可订阅成本和数据隐私这两道坎一直在。

我们的声音特征数据，真要是被泄露或者被滥用，后果可能跟密码泄露差不多严重。

这也是为什么语音本地方案的需求，越来越被重视的原因之一。

好在这两年，开源模型的不断迭代更新，基本是肉眼可见地速度在追平闭源模型的效果。

再加上也可在苹果 MLX、NVIDIA CUDA 这些消费级硬件，本地跑 TTS、STT、LLM。

而 Voicebox 的价值，我觉得不止在功能上的实用，更给我们提供一个新的可能。

以后使用 Agen，我们不一定非得对着一个冰冷的对话框，也可以让它说话、有情绪、有名字。

未来很快 AI Agent 即将从纯文本输出工具，逐渐演化成有声音、有人设的协作伙伴。

至于会不会成为主流，我们就拭目以待吧。

GitHub 项目地址：https://github.com/jamiepine/voicebox

今天的分享到此结束，感谢大家抽空阅读，我们下期再见，Respect！

没有评论:

发表评论

订阅：博文评论 (Atom)

2026年5月25日星期一

Voicebox开源：本地AI语音克隆平替，全程隐私且免费

Tags: 语音克隆 开源AI 本地语音 隐私保护 免费工具

写在最后

没有评论:

发表评论

多模型AI免费无限使用攻略 GPT5。6sol克劳德等主流模型 新手团队协作获取500次对话

Tags:

语音克隆

开源AI

本地语音

隐私保护

免费工具

多模型AI免费无限使用攻略 GPT5。6sol克劳德等主流模型新手团队协作获取500次对话