AI I024: 一键包：语音生成和逼真语音克隆的无令牌TTS，模型小，显存依赖少

2025年9月22日星期一

一键包：语音生成和逼真语音克隆的无令牌TTS，模型小，显存依赖少

今年TTS真的是大放异彩，语音克隆真的平民化了不少，博主之前也测试过很多语音克隆和语音生成的工具

今年TTS真的是大放异彩，语音克隆真的平民化了不少，博主之前也测试过很多语音克隆和语音生成的工具，也就这些工具做了一些应用，很受客户的喜欢。今天再给大家推荐一款语音克隆的工具，效果真的很不错，还可以模拟情感输出语音，而且模型也不大，生成速度也还挺快的，这就是openBMB刚开源的VoxCPM，文末我给大家制作了一个一键包（才2.7G），废话不多说，直接上干货，哈哈，不想看细节的直接文末获取一键包。

总览

1、项目简介

2、一键包演示和使用技巧

3、效果展示

项目简介

VoxCPM 是一种新颖的无分词文本到语音（TTS）系统，它重新定义了语音合成中的现实主义。通过在连续空间中建模语音，它克服了离散分词的限制，实现了两个旗舰功能：上下文感知语音生成和逼真的零样本语音克隆。

与将语音转换为离散标记的主流方法不同，VoxCPM使用了一种端到端的扩散自回归架构，直接从文本生成连续的语音表示。基于MiniCPM-4骨干网络，它通过层次语言建模和FSQ约束实现了隐式的语义-声学解耦，大大提高了表达能力和生成稳定性。

🚀 主要特点

上下文感知，富有表现力的语音生成 - VoxCPM理解文本以推断和生成适当的语调，输出具有显著表现力和自然流畅的语音。它根据内容自发地调整说话风格，产生在大规模180万小时双语语料库上训练的高度贴切的语音表达。

逼真的语音克隆 - 仅需一个简短的参考音频片段，VoxCPM就能进行准确的零样本语音克隆，不仅捕捉说话人的音色，还捕捉诸如口音、情感色调、节奏和语速等细粒度特征，以创建忠实且自然的副本。

高效合成 - VoxCPM 支持在消费级 NVIDIA RTX 4090 GPU 上以低至 0.17 的实时因子 (RTF) 进行流式合成，使其成为实时应用的可能。

一键包测试和使用技巧

下载一键包直接启动【01运行程序.bat】会自动弹出使用页面

简单的使用就是上传一段你要模仿的语音，然后输入目标文本，直接克隆。

How to Use ｜使用说明

Upload or record an audio clip to provide the desired voice characteristics for synthesis.（可选）提供参考声音 - 上传或录制一段音频，为声音合成提供音色、语调和情感等个性化特征

If you provided a voice prompt, enter the corresponding transcript here (auto-recognition available).（可选项）输入参考文本 - 如果提供了参考语音，请输入其对应的文本内容（支持自动识别）。

Type the text you want the model to speak.输入目标文本 - 输入您希望模型朗读的文字内容。

Click the "Generate" button to create your audio.生成语音 - 点击"生成"按钮，即可为您创造出音频。

想更精细的玩，可以参考如下设置

Prompt Speech Enhancement｜参考语音降噪

to remove background noise for a clean, studio-like voice, with an external ZipEnhancer component.启用：通过 ZipEnhancer 组件消除背景噪音，获得更好的音质。

to preserve the original audio's background atmosphere.禁用：保留原始音频的背景环境声，如果想复刻相应声学环境。

Text Normalization｜文本正则化

to process general text with an external WeTextProcessing component.启用：使用 WeTextProcessing 组件，可处理常见文本。

to use VoxCPM's native text understanding ability. For example, it supports phonemes input ({HH AH0 L OW1}), try it!禁用：将使用 VoxCPM 内置的文本理解能力。如，支持音素输入（如 {da4}{jia1}好）和公式符号合成，尝试一下！

CFG Value｜CFG 值

if the voice prompt sounds strained or expressive.调低：如果提示语音听起来不自然或过于夸张。

for better adherence to the prompt speech style or input text.调高：为更好地贴合提示音频的风格或输入文本。

Inference Timesteps｜推理时间步

for faster synthesis speed.调低：合成速度更快。

for better synthesis quality.调高：合成质量更佳。

效果展示

来展示一下效果

中文效果：

元语音

克隆效果

英文效果：