2025年12月13日星期六

长达 180 万小时的语音数据!VoxCPM 1。5 最新技术报告发布!

最近,面壁小钢炮发布了 VoxCPM 1.5 版本,在持续优化开发者开发体验的同时,也带来了多项核心能力升级:

✅ 高采样音频克隆:AudioVAE 采样率从 16kHz 提升至 44.1kHz ,模型可根据高质量音频,克隆效果更佳、细节更丰富的声音;

✅ 生成效率翻倍:在模型参数有所增加的前提下,VoxCPM 1.5 仅需 6.25 个 token 即可生成 1 秒音频,较此前版本提高一倍,在保持速度的同时提升了音频生成质量;

✅ 开发者友好:新增 LoRA 和全量微调脚本,支持深度定制;

✅ 增强稳定性:减少音频伪影,优化长文本音频的生成效果。

本文将详细介绍 VoxCPM 实现路径。

作为高效大语言模型 MiniCPM-4 在语音生成领域的重要探索,VoxCPM 融合了 层次化语言建模、有限标量约束 与 局部扩散 Transformer 等多项创新技术,在克服传统离散单元方法信息损失的同时,有效改善了连续表征自回归生成的稳定性。

该架构通过对高层语义和细粒度声学特征进行层次化建模,并借助基于 FSQ 的"半离散"中间表示,实现了二者的隐式解耦与协同分工。这使得模型能够合成在韵律、风格和情感方面高度自然且表现力丰富的语音,并具备出色的零样本(zero-shot)TTS 能力。

技术团队基于超过 180 万小时的大规模中英双语数据训练并开源了 VoxCPM-0.5B 版本模型,并于近期升级并开源了 VoxCPM 1.5 版本支持更高音质复刻。

实验结果表明,该模型在多项主流 TTS 评测中均达到当前开源 SOTA 水平,具备优秀的声音复刻和上下文自发韵律表达能力。

同时,VoxCPM 具备良好的推理效率,在消费级显卡上可实现实时率(RTF)低至 0.17 的流式语音生成,为面向多场景的高拟真语音合成系统提供了高性能的基础模型。

引言

近年来,基于大语言模型(LLM)的生成式文本到语音(TTS)系统极大地提升了合成语音的质量。

当前主流方法,如CosyVoice、FireRedTTS 及 SparkTTS 等,普遍遵循"语音分词器(speech tokenizer)离散化 + 语言模型建模"的两阶段范式,即将连续的语音信号转换为离散的声学词元(speech token)序列进行处理。

尽管这类方法取得了显著成功,但这种离散化过程存在信息瓶颈,会造成声学细节损失,从而限制了语音表现力与自然度的进一步提升。

为充分释放大模型的建模潜力,越来越多的研究开始转向端到端的连续语音表征建模,例如 DiTAR 等工作。

此类方法通过结合全局语言建模和局部扩散生成,避免了离散化带来的信息瓶颈,在理论上具备生成更丰富、更细腻语音表现的潜力。

然而,在连续空间中进行自回归生成面临着严峻的稳定性挑战:前一时间步的微小预测误差会在后续生成中被累积和放大(即 误差累积 现象),最终可能导致生成语音的可懂度急剧下降甚至完全崩溃。

这一问题在高表现力语音的续写任务中尤为突出。

为解决上述挑战,技术团队设计并实现了 VoxCPM,一款端到端的扩散自回归语音生成模型。

该模型以预训练文本模型 MiniCPM-4 为基础进行初始化,通过引入有限标量约束构建结构化的中间表征,巧妙地实现了"语义-声学"生成过程的隐式解耦。

此设计在保持连续建模所带来的信息丰富性的同时,有效改善了生成的稳定性。

VoxCPM 无需依赖预训练的高质量语音分词器,实现了完全端到端的训练与推理,并在大规中英语料上展现出卓越的泛化能力。

实验结果表明,该模型在语音自然度、音色相似度与韵律表现力方面均达到当前先进水平,同时具备高效的推理性能,为构建高性能、高表现力的生成式语音合成系统提供了一条新的可行路径。

本工作的主要贡献可归纳为:

1. 提出了一种融合层次化语言建模和局部扩散生成的端到端TTS方案 ,显著提升了生成语音的表现力与稳定性。

2. 引入有限标量约束技术 ,构建了一种"半离散"的中间表示,既保留了连续表征的丰富性,又有效抑制了误差传播。

3. 实现了完全端到端的训练流程 ,避免了对预训练语音分词器的依赖,简化了系统构建的复杂性。

4. 开展了大规模实验训练 ,基于超过180万小时的中英双语数据训练了 VoxCPM-0.5B 参数规模的模型,并于近期升级并开源了 VoxCPM 1.5 版本支持更高音质复刻。

  1. 本工作的模型参数、推理代码与微调脚本已 公开发布,以促进社区的后续研究与应用。

VoxCPM 技术介绍

整体架构概述

VoxCPM 是一个端到端的扩散自回归语音生成模型,旨在从输入文本直接合成高质量的连续语音表征,并且支持流式地实时输出生成音频片段。

其核心架构由四个协同工作的关键模块构成(如图 1 所示):

1. 局部音频编码模块 (LocEnc Module) :将底层的连续语音表征(VAE Latents)在 patch 级别进行聚合,压缩序列长度以提升后续语言模型的处理效率。

2. 文本-语义语言模型 (Text-Semantic LM, TSLM) :作为层次化结构的第一层,负责从文本中提取高层语义信息,并建模语音的核心要素,如内容、基础韵律和音色。其输出通过 FSQ 层被量化为"半离散"的语义-声学骨架。

3. 残差声学语言模型 (Residual Acoustic LM, RALM) :以TSLM的输出为条件,专注于预测细粒度的声学细节残差,对声学骨架进行精细化修饰。

4. 局部扩散生成模块 (LocDiT Module) :融合前两个语言模型的输出作为条件,在 patch 级别上,通过扩散去噪过程生成最终的高质量连续语音表征。

整个模型以端到端方式联合训练,通过最终 VAE 语音连续特征上的 diffusion loss 优化上述所有模块。FSQ 层建立的中间表示作为一种结构性约束,隐式地引导 TSLM 和 RALM 分别专注于语义主干建模和声学细节优化,从而形成高效的分工协作。

此外,系统还包含一个 因果式 VAE 编解码器 ,用于将原始音频波形压缩至低帧率的隐空间,并将生成的语音表征重构回波形信号。

图片

核心组件细节

01 局部音频整合模块(LocEnc Module)

该模块旨在对输入的连续语音特征进行信息聚合。借鉴 DiTAR 设计,它采用一个轻量级双向 Transformer,将每个patch内的VAE特征序列,通过一个前缀 <cls> token,聚合成一个单一的向量表示。这极大地缩短了主干语言模型需要处理的序列长度,降低了计算复杂度。

02 文本-语义语言模型 (TSLM) 与 FSQ 量化

  • 功能与结构 :作为层次化建模的第一阶段,TSLM 专注于捕获文本的高层语义,并根据历史语音信息生成当前语音的宏观轮廓。TSLM 以预训练语言模型 MiniCPM-4 为骨干并进行初始化,继承了其强大的文本理解与序列建模能力。输入文本采用 BPE 进行分词(对中文文本则采用单字分词策略以优化发音性能)。其输出的语音表征在传递给下一模块前,会通过一个有限标量量化(FSQ)层,被映射到一个由有限数值集合构成的较低维度"半离散"空间。

  • FSQ 的核心作用 :FSQ 不仅压缩了信息,更重要的是它施加了一种架构性约束,迫使 TSLM 的输出位于一个结构化、低方差的表示空间内。这种"半离散"表示既保留了足够的语义信息以指导后续生成,又为下一阶段的残差学习提供了稳定的基础,有效防止了误差累积。

  • 协同优化 :由于 FSQ 模块是可微分的,梯度可以在整个网络中自由传播。这使得 TSLM 与 RALM 可以在联合训练中协同优化。TSLM 学会在 FSQ 的约束下输出更鲁棒的粗粒度表示,而 RALM 则在此基础上专注于细节的恢复与增强。

  • 停止预测 :由于连续表征无法提供天然的结束信号,因此额外训练了一个二分类的 停止预测器 (Stop Predictor) 。该预测器接收TSLM的输出特征,判断生成过程是否应在当前步终止。

03 残差声学语言模型 (RALM)

  • 结构 :RALM 采用与 TSLM 相同的 Transformer 架构且处理等长的序列,但模型参数量较少,参数从头随机初始化训练。

  • 条件化输入 :RALM 的输入包含三部分信息:1) TSLM 输出的 文本部分隐状态 ,以提供丰富的文本上下文;2) 经过 FSQ 量化后的 语音部分"半离散"表征 ,作为稳定的声学骨架;3) 前一时间步由 LocEnc 编码的 原始声学特征 ,使其能感知到真实的声学细节以精确预测残差。

  • 残差学习机制 :RALM 的目标是预测一个"修正量"。其输出特征会以残差连接 (Residual Connection)的方式,叠加到 TSLM 经过 FSQ 量化后的特征之上。通过这种设计,RALM 无需重新学习已被 TSLM 建模的主干语义内容,而是能够集中精力建模FSQ量化过程中损失的声学细节,如细微的音高变化、精准的音色纹理和自然的韵律节奏。

04 局部扩散生成模块 (LocDiT Module)

  • 结构与功能: 参考 DiTAR 设计,LocDiT 是一个轻量级的扩散式生成器,其结构为一个小型双向 Transformer ,仅处理 patch 级别的局部上下文。它接收由 TSLM 和 RALM 输出的融合特征作为条件,并结合上一个 patch 的语音表征,从标准高斯噪声出发,通过去噪过程生成当前 patch 的高质量连续语音表征。

  • 训练与推理: 训练阶段采用高效的 流匹配 (Flow Matching)技术 。推理阶段则引入了 CFG-zero 策略和 摇摆采样 (sway sampling)等技巧,进一步增强生成语音的质量与多样性。

因果 VAE 编解码器

为实现语音信号与连续隐空间表征之间的高效转换,技术团队训练了一个帧率为 25 Hz 的因果式音频 VAE,其结构与 VoxCPM 的流式生成特性相适配。

该 VAE 借鉴了DAC 的设计,其编码器和解码器均基于堆叠的因果卷积网络(Causal CNN)实现。

在第一代 VoxCPM-0.5B 版本中,对于 16 kHz 单通道音频,编码器通过一系列步长卷积(步长序列为 [2, 5, 8, 8])实现 640 倍下采样,将其压缩至 25 Hz 的隐表示。解码器则基于该隐表示上采样重建原始波形。

训练目标包括对抗性损失(GAN loss)、Mel 谱图损失以及 KL 散度损失(权重设为 5e-5)。

该因果架构直接适用于流式生成场景:每当 VoxCPM 生成一个 patch 的语音表征,VAE 解码器便可立即将其重构为对应的波形片段,从而实现极低的实时合成延迟。

在新发布的 VoxCPM 1.5 版本中,技术团队将其升级为支持 44.1kHz 高采样率音频的编解码,以应对更高保真的克隆需求。

对于 44.1kHz 单通道音频,编码器通过步长序列为 [2, 3, 6, 7, 7] 的长因果卷积实现 1764 倍下采样,同样将其压缩至 25Hz 的隐表示。

实验与结果

训练设置

  • 数据 :使用了总计约 180 万小时的中英文语音数据进行训练,其中中文约 110 万小时,英文约 70 万小时。数据来源广泛,包括开源数据集(如 Emilia, GigaSpeech)以及从互联网收集的音频。所有音频均经过人声分离、自动切分和ASR转写处理。还通过 ASR 损失等指标过滤低质量数据,确保训练集的纯净度。语料类型覆盖有声书、广播剧、访谈、播客等多种场景。

  • 训练 :模型训练基于 Meagtron 框架实现。学习率调度采用 WSD(warmup-stable-decay)策略。发现,在训练后期采用学习率退火对模型最终性能有显著提升。具体分为两个阶段: Stable 阶段 ,采用固定学习率,训练数据最长不超过 60 秒; Decay 阶段 ,采用衰减学习率,并引入音素控制、高质量合成数据(如公式、数字、难句)等增强型数据,训练样本最长可达 300 秒(5 分钟)。

阶段

学习率

tokens

步数

GPU

Stable

1e-4

4096

400K

40 H100

Decay

1e-4 -> 5e-6

8192

100K

40 H100 

  • 模型规模:基于 MiniCPM-4-0.5B 的文本模型,构建了相应规模的 VoxCPM-0.5B 和后续的 VoxCPM 1.5,具体参数结构如下:


VoxCPM-0.5B

VoxCPM1.5

Patch-Size

2 (12.5Hz in LM)

4 (6.25Hz in LM)

LocEnc

4 layers, 1024 hidden, 4096 ffn

8 layers, 1024 hidden, 4096 ffn

TSLM

24 layers, 1024 hidden,4096 ffn

24 layers, 1024 hidden,4096 ffn

RALM

6 layers, 1024 hidden, 4096 ffn

8 layers, 1024 hidden, 4096 ffn

LocDiT


4 layers, 1024 hidden, 4096 ffn

8 layers, 1024 hidden, 4096 ffn

总参数量

640M

800M

主要结果

在多个维度对 VoxCPM 的性能进行了较为全面评测,并与多个当前主流的 TTS 模型进行了对比。

评测指标

  • 稳定性:在稳定性方面,采用语音错词率(WER)进行衡量。VoxCPM 在 seed-tts-eval 正常样本下达到极低水平,在困难样本上也取得不错表现。

  • 相似度:在音色相似度方面,尤其在 zero-shot 音色克隆任务中,VoxCPM 同样表现出顶尖性能。

  • 生成效率:VoxCPM-0.5B 版本在单张 NVIDIA RTX 4090 显卡上实现了 RTF(Real-Time Factor)≈ 0.17 的高效推理速度,证明了其在实际应用中的可行性。VoxCPM1.5 尽管扩展了 LocEnc 和 LocDiT 的参数量,但得益于更低的 LM 全局处理码率 (6.25Hz),使其具备相比 VoxCPM-0.5B 版本更高效的推理速度(≈ 0.15)。

评测结果详情请查看技术报告。

VoxCPM 1.5 特色效果展示

在保留上一版 VoxCPM 精准语音克隆和上下文感知生成能力外,VoxCPM 1.5 进一步提升了长语音稳定性和对高采样率参考音频的复刻音质上限。

01 长语音生成:能够合成韵律自然、稳定一致的长语音。

图片

02 影视游戏级别高音质复刻:当提供高音质参考音频时 ,能更加精准的复刻高频细节

💡 游戏角色 1 台词

参考音频:

VoxCPM 1.0:

VoxCPM 1.5:

💡 游戏角色 2 台词

参考音频:

VoxCPM 1.0:

VoxCPM 1.5:

👇 点击链接,聆听更多超拟人的生成音频

VoxCPM 重磅开源:可生成超级逼真的真人语音,甚至各种方言!

总结

本文介绍了 VoxCPM,一款端到端的扩散自回归语音生成模型。

通过层次化建模和引入 FSQ 构建"半离散"中间表示,VoxCPM 成功地在保留连续语音表征丰富性的同时,改善了自回归生成中的误差累积问题,显著提升了合成语音的表现力和稳定性。

在大规模中英双语数据上的训练结果验证了该方法的有效性,无论在主观听感还是客观指标上,VoxCPM 均展现出开源领域领先的性能。

我相信,VoxCPM 为未来高表现力、多场景语音合成系统的研究与开发提供了一个强有力的基础模型和新的视角。

相关链接  

  • 项目仓库地址:https://github.com/OpenBMB/VoxCPM/

  • HuggingFace 模型地址:https://huggingface.co/openbmb/VoxCPM1.5

  • ModelScope 模型地址:https://modelscope.cn/models/OpenBMB/VoxCPM1.5

  • PlayGround 体验地址:https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

  • 音频样例页面地址:https://openbmb.github.io/VoxCPM-demopage

  • 技术报告地址:https://arxiv.org/abs/2509.24650

没有评论:

发表评论