2026年4月12日星期日

面壁智能开源语音大模型VoxCPM 2:支持音色克隆和30种语言9种方言

面壁智能联合清华团队开源VoxCPM 2语音大模型,2B参数、48kHz高保真音质。支持30种语言和9种中国方言,可用文字描述创造全新音色,支持5秒以上音频克隆声音并复刻情感。开源免费,提供完整工具链,适合出海、游戏配音、有声书等场景。

Tags:

面壁和清华团队又开源了个狠的。

继去年接连开源 VoxCPM 和 VoxCPM 1.5 之后。

面壁智能联合清华大学人机语音交互实验室,这次直接把参数量拉到了 2B,推出了新一代语音大模型 VoxCPM 2。

目前 X 上在热烈讨论。

图片

简单说:一个开源、免费、功能齐全的语音生成模型,配套工具箱也给你备齐了。

30 种语言、9 种中国方言、能凭空用文字创造声音、能克隆你的声音、48kHz 高保真音质。

而且是一个模型聚集多种功能,效果好且全。

01
VoxCPM 2 是什么

图片

VoxCPM 是面壁智能开源的语音大模型系列,从去年 9 月开始迭代,每次升级都很实在:

  • VoxCPM 1(2025.09):0.5B 参数,16kHz 采样率,中英双语 + 方言,3 秒参考音频克隆
  • VoxCPM 1.5(2025.12):0.8B 参数,44.1kHz 采样率,HuggingFace 下载量 5.5k+
  • VoxCPM 2(2026.04):2B 参数,48kHz 采样率,30 种全球语言 + 8 种中国方言

从 0.5B 到 2B,从 16kHz 到 48kHz,从中英双语到 38 种语言,每一代都在实打实地升级。

到了 VoxCPM 2 这一代,基本上把开源语音模型能做的事情全做了。

体验链接:https://voxcpm.modelbest.cn/开源链接:https://github.com/OpenBMB/VoxCPM/Hugging Face链接:https://huggingface.openbmb.com/model/openbmb/VoxCPM2
02
四大核心亮点

亮点一:30 种语言 + 9 种方言,一个模型走遍全球

VoxCPM 2 支持的语言覆盖面非常广。

VoxCPM 2 支持 30 种全球主流语言,中英日韩法德俄阿拉伯语这些不用说了。

图片

重点是还覆盖了东南亚八国语种:越南语、泰语、印尼语、老挝语、缅甸语、柬埔寨语、菲律宾语、马来西亚语。

这个覆盖范围对出海企业来说太友好了,有人直接叫它东南亚版 ElevenLabs。

国内这边也没落下,9 种方言全部安排上:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语。

说到方言这里多提一句,用的时候有个小技巧:你输入的文本得是方言本身的表达方式,不能拿普通话文本让它强行读出方言味道。

图片

亮点二:音色设计-不用选声音,直接造声音

这个功能是 VoxCPM 2 最让人兴奋的能力之一。

市面上大多数语音模型只能对固定音色做情感或风格控制,说白了就是给你几个预设音色,你在这几个里面挑。

VoxCPM 2 不一样,你可以直接用文字描述来创造一个全新的、之前根本不存在的声音。

然后再用这个声音去朗读任何文本,还能精确控制情感和风格。

操作也很简单,在控制指令里用自然语言描述你想要的声音就行,不需要任何特殊格式。

图片

几个描述词的例子感受一下:

基础风格:"年轻女性,温柔甜美"

质感风格:"浑厚低沉的口音男声,语速慢,带着从容"

画面感风格:"听着像个活泼的小姐姐在耳边轻快地说话,语速很快但声音很轻柔,俏皮的警告听起来一点也不凶,反而让人觉得很亲切"

因为大模型的生成特性,即便是相同的指令,每次生成的音色细节也会有微妙的随机变化,相当于每次都在给你匹配不同的 AI 声优。

这个能力打开的想象空间非常大,做游戏角色配音、做动画、做有声书,不再受限于固定的音色库了。

亮点三:克隆你的声音,还能复刻情感

音色克隆这个功能很多模型都有,但 VoxCPM 2 在这块做得更深。

它基于扩散自回归连续表征方法,相比传统的 Token-based 方法,能保留更多原始声音的声学信息和情感细节,信息损失更少。

最终效果就是克隆出来的声音相似度更高,真正做到声临其境

上传或录制一段音频,建议 5 秒以上,素材越充足效果越好,AI 就能提取并复制这个音色,用它念出你指定的任意文本。

更有意思的是,克隆不仅仅是复制。

你还可以在控制指令里加入辅助提示来改变原有声音的情绪和语速。

比如上传了一段日常说话的录音,你可以加一句"语速很快,清亮饱满",AI 就会保留原音色,但以你想要的语气来播报。

不过有一点要注意:音色克隆没法跨性别转换,用男声的参考音频让 AI 变成女声,大概率是不行的。

这个功能主要用来调整原声音的情绪、语速和演绎风格。

亮点四:48kHz 高保真,配音级表现力

VoxCPM 2 的采样率达到了 48000Hz,这是什么概念?

目前市面上主流的语音 AI 一般是 24000Hz,VoxCPM 2 直接翻倍,达到了高保真音频标准,也就是 CD 音质级别。

更高的采样率意味着能捕捉并还原声音的每一个细腻细节,告别传统 TTS 那种一听就知道是机器生成的感觉。

生成的语音在自然度、情感表达和韵律上达到了配音级别,可以直接用在影视配音、游戏、动画、有声书这些对声音表现力要求很高的专业场景里。

速度方面也不拉胯。

在 RTX 4090 上,RTF 指标为 0.13,也就是生成 10 秒钟的音频只需要 1.3 秒,处理速度是实时速度的 7.7 倍。

03
VoxCPM 2 的优势在哪

TTS 这个领域现在各家的基础能力都不差,差异主要体现在特色功能和技术路线上。

简单过一下 VoxCPM 2 的定位:

和 Index-TTS 相比,VoxCPM 2 在多语种能力上要强很多,30 种语言加 9 种方言的覆盖面摆在那里。

和 Qwen3-TTS 相比,VoxCPM 2 在音色克隆的真实性和任意音色可控上更有优势。

而且 VoxCPM 2 一个模型就聚合了多种功能,Qwen3-TTS 要实现同样的功能组合需要三个模型叠加。

图片

技术路线上,VoxCPM 2 采用的扩散自回归连续表征方法在信息保留上天然优于 Token-based 方法,音色克隆更真实,声音细节表现的上限更高。

和 VibeVoice 相比,VoxCPM 2 在单人音色生成和多场景适配上做得更深入,尤其是视频配音这块。

和闭源模型比就更简单了:VoxCPM 2 开源、免费。

开发者这块面壁也把工具链准备好了:原生 Torch 推理、LoRA 和全参数微调、VoxCPM-NanoVLLM 高吞吐部署、ComfyUI 和 WebUI 扩展、ONNX 导出支持 CPU 快速推理,甚至还有 Rust 语言重构版本。

从一键上手到大规模部署都覆盖了。

体验链接:https://voxcpm.modelbest.cn/GitHub开源链接:https://github.com/OpenBMB/VoxCPM/Hugging Face链接:https://huggingface.openbmb.com/model/openbmb/VoxCPM2

04

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

MCP工具越贵越慢?3步换成CLI让API费用效率翻倍

本文对比CLI与MCP工具的token消耗与调试难度,指出CLI更省token、出错透明且支持管道符组合命令。适合AI开发者与效率追求者。核心亮点:CLI完成同样任务可省一半API费用,不涉及周末加价,提供GitHub CLI、CLI Anything和Open CLI三个开源工具安装建议。

Tags:

图片

你好,我是元小二,专注分享 AI 提效、一人公司实践和个人成长。这里有 OpenClaw、Claude Code、自动化流程、虚拟产品,也有理财、思考和生活系统。

欢迎关注,也欢迎后台留言告诉我,你对哪部分内容感兴趣。


朋友们,这是一个喜大普奔的好消息:
命令行界面——这个你以为早就该进博物馆的老古董——正在疯狂复仇!

Alt text

飞书、钉钉、谷歌、Stripe……两周之内,这些巨头不约而同地开源了自己的CLI产品(飞书CLI开源了!Claude Code现在可以直接操控飞书,客户端可以卸载了!)。与此同时,GitHub上两个CLI相关项目,短短两周收割了2.5万颗Star。

这不是偶然,这是一场revolution。


一、我为什么开始认真对待CLI?

说实话,我以前也觉得CLI是程序员的”黑话”,图形界面(GUI)才是正道。

Alt text

直到有一天,我让Agent帮我处理一批视频文件,反复调用MCP工具,token烧了一大把,跑了半小时,还给我报了个玄学错误。我根本不知道哪里出了问题,整个过程像个黑盒子。

后来我换了CLI的方式——一行命令,5秒钟搞定。

我当时就想:完了,MCP可能真的要凉。


二、CLI凭什么卷死MCP?

我对CLI的评价是:它是AI的母语,而MCP是AI学的第二外语。

Alt text
(去年很火的MCP,危险了)

大模型在训练的时候就吃了海量的命令行数据,CLI天生就是它最顺手的工具。具体来说,CLI有三个MCP根本比不了的优势:

第一,省token,省到MCP哭泣。

MCP每次调用,都要把所有工具的名字、参数、格式、示例全部塞进上下文。你工具越多,token消耗越离谱。

CLI不一样,Agent可以随时跑一个--help命令,按需学习,渐进式披露。Scale Kit做过测试,完成同样的GitHub任务,CLI的token消耗成倍小于MCP。

朋友们,这意味着同样的钱,CLI能干MCP两倍甚至更多的活!

第二,CLI对人类友好,MCP是个黑盒。

这件事我感受特别深。用Agent走CLI流程,中途报错了怎么办?把命令复制出来,自己终端里跑一下,错误原因一目了然,还能手动介入修复。

MCP出错?对不起,整个过程都在Agent内部,你啥都看不见,调试难度直接拉满。

第三,管道符才是CLI的终极武器。

CLI天生支持管道符,可以把命令像水管一样拼接成流水线:

获取Issue列表 → 筛选包含"bug"的 → 按时间排序 → 导出CSV

一条命令,行云流水。MCP要实现同样的效果?多步骤反复调用,时间和token双双爆炸。


三、两个宝藏开源项目,赶紧收藏!

🔥 CLI Anything(2.5万Star)

Alt text

一行命令,把任意开源软件CLI化。比如画流程图的Draw.io,本来需要鼠标拖来拖去,Agent根本搞不定。用CLI Anything处理之后,Agent直接用命令行画图,还能导出SVG,一气呵成。

我让Codex帮我画了一个快速排序算法的流程图,它先自己跑了--help学习命令,然后自己开始干活,交付的文件打开直接能用,只需要微调。

这件事我之前让Agent走GUI方式弄了很久,都搞不定。换成CLI,一次性通过。
GitHub仓库:https://github.com/HKUDS/CLI-Anything

🔥 Open CLI

更厉害,它能把任意网站或Electron桌面应用变成命令行工具。

Alt text

比如:

  • opencli hackernews top 5 → 直接返回Hacker News前五热门

  • opencli boss search --city 青岛 → 自动操作浏览器帮你找工作

  • 还支持追加--format json,让数据结构化返回

作者已经支持了几十个网站和工具,拿来即用。如果你有特殊需求,让AI帮你二次开发加入新命令,整个流程行云流水。
GitHub仓库:https://github.com/jackwener/opencli


四、MCP就该消失了吗?

等等,我得说句公道话。

MCP也不是一无是处。在多租户、严格权限控制的云端平台场景,MCP的标准化安装包和统一规范是CLI无法替代的。

而且现在两边都在互相学习:

  • Claude Code和Codex上线了Tool Search功能,MCP不再全量注入,而是按需加载

  • 有人开发了MCP Porter,可以把MCP直接转换成CLI格式

所以更准确的说法是:现在说CLI完全取代MCP还为时尚早,但CLI正在用实力倒逼MCP进化。

这场竞争,最终受益的是我们用户。


五、行动指南

如果你也想开始用CLI武装你的AI工作流,三步走:

  1. 安装GitHub官方CLI(gh),感受一下CLI+Agent的顺畅体验

  2. 收藏CLI Anything和Open CLI,遇到需要操作GUI的软件,第一反应是”能不能CLI化”

  3. 多用管道符,让命令像积木一样组合,复杂任务一行搞定

多用CLI吧,我的朋友!

这个时代,懂得给AI选对工具的人,效率会比别人高出一个数量级。

人生是一场无限游戏,乾坤未定,你我均是黑马。


👇进入公众号【元小二学AI】,后台回复关键词【claudecode】,免费领取一份claudecode入门指南。



温馨提示:

公众号修改了推送规则,很多人发现收到的消息不及时。

为了能够第一时间收到消息,不错过优质的AI教程,请星标⭐置顶本公众号,以便第一时间获取精选内容!




          我们的口号:学好AI,享受生活


关注【元小二学AI】,你会持续看到更接地气的 AI 学习内容。

这里不讲太多空概念,更关注普通人怎么把 AI 真正用到工作、内容创作和日常生活里。

包括工具实操、提效流程、自动化思路,以及一人公司场景下的真实应用。

你能在这里找到教程、案例、脚本思路和实战经验,少走弯路,早点把 AI 变成自己的帮手。




面壁智能开源语音大模型VoxCPM 2:支持音色克隆和30种语言9种方言

面壁智能联合清华团队开源VoxCPM 2语音大模型,2B参数、48kHz高保真音质。支持30种语言和9种中国方言,可用文字描述创造全新音色,支持5秒以上音频克隆声音并复刻情感。开源免费,提供完整工具链,适合出海、游戏配音、有声书等场景。 Tags: 开源语音模型 ...