2025年9月22日星期一

一键包:语音生成和逼真语音克隆的无令牌TTS,模型小,显存依赖少

今年TTS真的是大放异彩,语音克隆真的平民化了不少,博主之前也测试过很多语音克隆和语音生成的工具

今年TTS真的是大放异彩,语音克隆真的平民化了不少,博主之前也测试过很多语音克隆和语音生成的工具,也就这些工具做了一些应用,很受客户的喜欢。今天再给大家推荐一款语音克隆的工具,效果真的很不错,还可以模拟情感输出语音,而且模型也不大,生成速度也还挺快的,这就是openBMB刚开源的VoxCPM,文末我给大家制作了一个一键包(才2.7G),废话不多说,直接上干货,哈哈,不想看细节的直接文末获取一键包。

总览
1、项目简介
2、一键包演示和使用技巧
3、效果展示

项目简介
VoxCPM 是一种新颖的无分词文本到语音(TTS)系统,它重新定义了语音合成中的现实主义。通过在连续空间中建模语音,它克服了离散分词的限制,实现了两个旗舰功能:上下文感知语音生成和逼真的零样本语音克隆。
与将语音转换为离散标记的主流方法不同,VoxCPM使用了一种端到端的扩散自回归架构,直接从文本生成连续的语音表示。基于MiniCPM-4骨干网络,它通过层次语言建模和FSQ约束实现了隐式的语义-声学解耦,大大提高了表达能力和生成稳定性。
VoxCPM 模型架构
🚀 主要特点
上下文感知,富有表现力的语音生成 - VoxCPM理解文本以推断和生成适当的语调,输出具有显著表现力和自然流畅的语音。它根据内容自发地调整说话风格,产生在大规模180万小时双语语料库上训练的高度贴切的语音表达。
逼真的语音克隆 - 仅需一个简短的参考音频片段,VoxCPM就能进行准确的零样本语音克隆,不仅捕捉说话人的音色,还捕捉诸如口音、情感色调、节奏和语速等细粒度特征,以创建忠实且自然的副本。
高效合成 - VoxCPM 支持在消费级 NVIDIA RTX 4090 GPU 上以低至 0.17 的实时因子 (RTF) 进行流式合成,使其成为实时应用的可能。

一键包测试和使用技巧
下载一键包直接启动【01运行程序.bat】会自动弹出使用页面
图片
简单的使用就是上传一段你要模仿的语音,然后输入目标文本,直接克隆。
How to Use |使用说明
  • Upload or record an audio clip to provide the desired voice characteristics for synthesis.(可选)提供参考声音 - 上传或录制一段音频,为声音合成提供音色、语调和情感等个性化特征
  • If you provided a voice prompt, enter the corresponding transcript here (auto-recognition available).(可选项)输入参考文本 - 如果提供了参考语音,请输入其对应的文本内容(支持自动识别)。
  • Type the text you want the model to speak.输入目标文本 - 输入您希望模型朗读的文字内容。
  • Click the "Generate" button to create your audio.生成语音 - 点击"生成"按钮,即可为您创造出音频。
想更精细的玩,可以参考如下设置
Prompt Speech Enhancement|参考语音降噪
to remove background noise for a clean, studio-like voice, with an external ZipEnhancer component.启用:通过 ZipEnhancer 组件消除背景噪音,获得更好的音质。
to preserve the original audio's background atmosphere.禁用:保留原始音频的背景环境声,如果想复刻相应声学环境。
Text Normalization|文本正则化
to process general text with an external WeTextProcessing component.启用:使用 WeTextProcessing 组件,可处理常见文本。
to use VoxCPM's native text understanding ability. For example, it supports phonemes input ({HH AH0 L OW1}), try it!禁用:将使用 VoxCPM 内置的文本理解能力。如,支持音素输入(如 {da4}{jia1}好)和公式符号合成,尝试一下!
CFG Value|CFG 值
if the voice prompt sounds strained or expressive.调低:如果提示语音听起来不自然或过于夸张。
for better adherence to the prompt speech style or input text.调高:为更好地贴合提示音频的风格或输入文本。
Inference Timesteps|推理时间步
for faster synthesis speed.调低:合成速度更快。
for better synthesis quality.调高:合成质量更佳。

效果展示
来展示一下效果
中文效果:
元语音

克隆效果

英文效果:
元语音

克隆效果

这个大小的模型,这个效果还是很不错的,哈哈,大家赶紧测试起来吧
需要二次开发,接口部署的可以私我(关注后自动获取联系方式)
需要一键包的,关注后私信回复【cpm】可以获取
大模型感兴趣的可以进群交流,已在群的就不要进了,我会定时清理
图片
#tts#语音克隆#语音生成#voxcpm#cpm#openBMB

历史优秀文章
替换视频人物:阿里开源wan2.2-vace-fun,可实现图片人物替换视频人物,文末一键包
AI+3D打印:从一张图片到真实的手办,保姆教程实现手办自由!文末一键包
图片数字人:对话唱歌都很自然,文末一键包,还有comfyui一键包
qwen-image-edit保持一致性真不错,图片编辑很灵活,文末一键包
基于claude code 接入国产模型,可调用agent,可控制操作系统,无需梯子使用本地大模型

没有评论:

发表评论

港大和字节携手打造WorldWeaver:以统一建模方案整合感知条件,为长视频生成领域带来质量与一致性双重飞跃。

生成视频建模虽有进展,但长序列结构与时间一致性保障仍是难题。现有依赖 RGB 信号的方法,会使物体结构和运动在长时间累积误差。 生成视频建模虽有进展,但长序列结构与时间一致性保障仍是难题。现有依赖 RGB 信号的方法,会使物体结构和运动在长时间累积误差。为此港大和字节提出了一...