如您有工作需要分享,欢迎联系:aigc_to_future
作者:MiniMax
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2505.07916
项目链接:https://minimax-ai.github.io/tts_tech_report/
亮点直击
MiniMax-Speech,这是一种支持 32 种语言的 TTS 模型,能够生成高保真度、几乎无法与人类语音区分的语音,在多个客观和主观评估指标上达到了 SOTA结果基于自回归 Transformer 架构,并配备了可学习的说话人编码器模块,模型在零样本语音克隆方面表现出强大的表现力。当提供参考音频提示时,在一次性语音克隆场景中还增强了说话人相似性 采用了一种基于新颖的 Flow-VAE 的流匹配模型,进一步提升了生成语音的音频质量和说话人相似性 详细介绍下游应用,包括对合成语音中情感表达的细粒度控制、通过 T2V 构建的大规模语音库,以及通过 PVC 提高目标说话人的合成相似性
总结速览
解决的问题
如何生成高质量、自然流畅、与人类语音几乎无法区分的合成语音。 如何在没有参考音频文本转录的情况下进行语音克隆。 如何实现零样本和一次性语音克隆,同时保持与参考音频一致的音色。 如何在不修改基础模型的前提下实现多种语音合成相关功能的扩展。
提出的方案
提出 MiniMax-Speech:一种支持 32 种语言的高保真文本到语音(TTS)模型。 引入可学习的说话人编码器,从参考音频中提取音色特征,无需转录文本。 使用 Flow-VAE 模块提升语音合成质量和说话人相似性。 基于强解耦的说话人表示,实现无需修改基础模型的功能扩展。
应用的技术
自回归 Transformer 架构用于语音生成。 可学习的说话人编码器用于提取音色特征,支持零样本和一次性语音克隆。 Flow-VAE(变分自编码器结合流匹配)用于提升音频质量和说话人相似性。 LoRA 技术用于控制语音情感表达。 T2V 技术用于从文本描述中直接合成音色特征。 PVC 技术用于通过额外数据微调音色特征,实现专业语音克隆。
达到的效果
在多个客观和主观评估指标上取得最先进(SOTA)水平。 在词错误率()和说话人相似度()等语音克隆指标上表现优异。 在公开 TTS Arena 排行榜中排名第一。 支持细粒度情感控制、大规模语音库构建和专业语音克隆等多种下游应用。
方法
MiniMax-Speech 是一个创新的 TTS 系统,旨在实现高保真语音克隆,特别强调其强大的零样本能力。如下图 1 所示,它主要包含三个组件:一个分词器、自回归 Transformer 和一个潜变量流匹配模型,后者由流匹配模块和 Flow-VAE 模块组成。文本分词器采用 Byte Pair Encoding(BPE),而音频分词器则采用 Encoder-VQ-Decoder 架构,对梅尔频谱图进行量化,速率为每秒 25 个 token,并配合连接时序分类(CTC)监督。该语音分词器在实现高压缩率的同时,有效保留了丰富的声学细节和语义信息。自回归 Transformer 和潜变量流匹配模型的详细信息如下。
零样本自回归 Transformer
MiniMax-Speech 采用自回归 Transformer架构,从文本输入生成离散音频 token。该系统在高保真说话人克隆方面表现出色,尤其是在零样本语音克隆任务中,仅凭一段未转录的音频片段即可合成模仿目标说话人音色和风格的语音。
为了实现这一强大的零样本能力,MiniMax-Speech 引入了一个可学习的说话人编码器,灵感来自(Betker, 2023)。与其他使用预训练说话人编码器的语音合成模型不同,MiniMax-Speech 的编码器与自回归 Transformer 联合训练。这种联合优化使得说话人编码器能够专门针对语音合成任务进行调整,通过提供更丰富、更相关的说话人特征信息来提升合成质量。此外,由于该说话人编码器是可学习的,它可以在训练数据集中涉及的所有语言上进行训练。相比之下,预训练编码器可能未接触到如此多样的语言,而本文的方法确保了更广泛的语言覆盖,并可能提升泛化能力。
说话人编码器从参考音频中提取显著的说话人特征,例如音色和韵律风格(该音频不同于要生成的目标语音)。作为语音提示的变长音频片段被编码器转换为一个固定大小的条件向量,该向量随后引导自回归模型生成具有期望说话人身份的目标语音。
MiniMax-Speech 的语音克隆能力可通过零样本和一次性学习的范式进行理解,这些概念借鉴自大型语言模型(LLMs)如 GPT-3中观察到的能力。在 LLM 中,零样本指的是仅根据指令执行任务而无需任何示例,而一次性(或少量示例)学习则是在上下文中提供一个(或几个)示例以引导模型。本文将这些概念应用于 TTS,如下所示:
零样本语音克隆:MiniMax-Speech 的核心优势。 在这一主要模式下,MiniMax-Speech 使用仅包含参考音频片段的方式来定义语音特征(见下图 2b),从而合成目标说话人的语音。关键在于推理阶段不提供该说话人语音与文本的配对示例,也不进行说话人特定的微调。参考音频本身作为对期望音色和风格的主要"指令"。
一次性语音克隆:可选增强方式。 在零样本基础上,该模式通过提供额外的显式示例来增强克隆的保真度。具体而言,提供一对来自目标说话人的文本-音频样本,作为"上下文提示",与从参考音频中提取的标准说话人嵌入一同输入(见上图 2c)。这种方式类似于 LLM 中的一次性提示策略,也类似于如 VALL-E、CosyVoice 2和 SeedTTS中的方法(它们的提示方法依赖配对的文本-音频样本,如上图 2a 所示)。虽然这些模型在其各自的论文中通常被描述为"零样本",但由于依赖配对的文本-音频提示进行说话人条件控制,按照本文更严格的定义应归类为"一次性"方法。而本文所提出的"内在零样本"方法(上图 2b)则完全依赖未转录的参考音频片段来提取说话人特征,不需要任何配套文本提示。
虽然可选的一次性提示在特定场景中能提供更细致的风格线索,但该系统的架构从根本上是为强大而灵活的零样本合成而设计的。MiniMax-Speech 中的条件编码器可无缝支持这两种方法,但其真正的创新在于无需依赖配对数据或微调即可实现高质量语音克隆。这种以零样本为中心的设计由可学习说话人编码器驱动,具有以下诸多优势:
无文本参考: 仅依赖参考音频波形运行,无需目标说话人音频的文本转录。这确保了说话人身份是纯粹从声音特征中学习的,与任何特定参考语句的语义内容解耦。
丰富的韵律变化与灵活解码: 零样本方法仅由编码器提取的说话人条件控制,允许生成具有多样韵律变化的语音。模型不受特定文本-音频提示韵律的限制(如一次性方法中),从而拥有更广的解码空间,生成的输出在保持目标说话人独特音色的同时,也展现出自然的表达范围。
强大的跨语言合成能力: 说话人编码器捕捉与语言无关的声音特征,提升跨语言合成能力。这优于依赖文本-语音参考对的提示式克隆方法,后者在参考语言与目标语言不一致或语义内容不匹配时效果较差。
扩展性的基础: 编码器提供的强大且解耦的说话人表示,为各种下游应用提供了灵活的基础,如下文所述。情感控制、T2V 和 PVC 等任务均可利用这一核心说话人身份表示,而无需对基础模型进行根本性修改。
潜变量流匹配
总览
在 MiniMax-Speech 中,流匹配模型采用了 Transformer 架构,该架构具有强大的上下文建模能力。本文的流匹配模型旨在建模从音频训练的编码器-解码器模块中提取的连续语音特征(潜变量)的分布,而非梅尔频谱图。在训练该编码器-解码器模块时(其中编码器提取这些连续语音特征,解码器通常是一个神经声码器),使用 KL 散度作为约束。这使得潜变量分布更易预测且更紧凑。此外,由于潜变量提取模块(编码器)与神经声码器(解码器)是联合训练的,因此基于潜变量的波形重建误差小于基于梅尔频谱图的重建误差,从而提升了潜变量建模的上限。
下图 3(a) 展示了本文提出的 Flow-VAE 模型,用于优化编码器-解码器模块。传统的变分自编码器(VAE)通常假设其潜变量空间服从标准正态分布。相比之下,Flow-VAE 引入了一个流模型,该模型可通过一系列可逆映射灵活地变换潜变量空间,从而学习更具表现力的后验分布,以更准确地捕捉数据中的复杂模式。这种融合方案能够充分利用 VAE 对数据的初始建模能力以及流模型对复杂分布的精确拟合能力,从而更好地捕捉数据中的复杂结构和分布特征,提高数据建模的准确性,因此显著优于传统的 VAE 模型。
为了增强流匹配模型的音频质量和音色相似性,本文借鉴了 CosyVoice 2的设计,如上图 3(b) 所示,融合了全局音色信息与提示信息。具体而言,全局音色信息是通过说话人编码器从梅尔频谱图特征中提取的。在训练过程中,当前句子开头的信息以一定概率被用作提示。因此,在推理阶段,本文的模型支持零样本和一次性合成两种模式。
Flow-VAE 的 KL 散度
在 Flow-VAE 模型中,本文的目标是为后验编码器(即 Flow-VAE 模型的编码器)提供足够的信息,因此本文使用目标语音的波形 作为输入,而非梅尔频谱图,然后应用流模型 将一个正态分布可逆地变换为标准正态分布。KL 散度为:
在本文的实验中,如上图 3(a) 所示,流模型通过一系列可逆变换对编码器输出的正态分布进行变换。最终,本文计算流模型输出的分布与标准正态分布之间的 KL 损失。通过这种方式,可以将编码器的输出约束为一个正态分布,而非标准正态分布,从而增强编码器的信息表达能力。
实验
本节对 MiniMax-Speech 进行了全面评估,从多个维度系统性地评估其性能。本文首先介绍用于训练和评估的数据集。主要分析集中在三个关键方面:(1)语音克隆保真度,分别对零样本和一次性方法进行客观测量;(2)感知自然度,通过广泛的人类偏好测试进行评估;(3)多语言与跨语言合成能力,在多种语言中进行严格测试。此外,本文还进行了消融实验,以研究关键架构设计(包括说话人条件建模方法和 Flow-VAE 框架)的影响。
数据集
MiniMax-Speech 是在一个涵盖 32 种语言的多语言语音数据集上训练的。在数据收集过程中,考虑到转录准确性至关重要,本文实施了严格的双重自动语音识别(ASR)验证流程。文本标点通过综合考虑语音活动检测(VAD)和 ASR 生成的时间戳进一步优化。值得注意的是,保留了录音中原始的稳态噪声。此外,通过一个多说话人验证模型,确保了每个音频文件内部音色的一致性。
语音克隆评估
本文使用 SeedTTS-eval测试集中的 WER 和 SIM 指标对语音克隆的保真度进行了量化评估。该数据集包含两个不同子集:test-zh(约 2000 条中文样本)和 test-en(约 1000 条英文样本)。每个样本都包含一个参考音频和一个来自相同说话人的对应真实音频。对于 WER 的计算,合成的英文和中文音频分别使用 Whisper-large-v3和 Paraformer-zh进行转录。SIM 是通过计算说话人嵌入之间的余弦相似度得到的,说话人嵌入由在 WavLM-large 上微调的说话人验证模型提取。这些 ASR 和说话人验证模型的选择与 Seed-TTS-eval 测试集的既定方法保持一致。
如下表1所示,MiniMax-Speech 模型在零样本和一次性克隆场景下的 WER 显著低于 Seed-TTS、CosyVoice 2和真实音频。这表明,MiniMax-Speech 在克隆过程中合成的语音具有清晰、稳定的发音,并且发音错误发生率较低。值得注意的是,MiniMax-Speech 在零样本克隆中的 WER 优于其一次性克隆版本。此外,主观听众反馈表明,通过零样本克隆合成的语音被认为更加自然和真实。零样本方法依赖于本文的说话人编码器,直接利用参考音频的声学特性,而不受语言模型提示样本的额外影响。这带来了更高的可懂度(更低的 WER)和更好的自然度,因为模型在生成符合文本的韵律方面具有更大的自由度,而不会被提示音频的韵律所偏移。说话人编码器有效地捕捉了核心的声纹特征,使得自回归模型能够生成多样且自然的语音。尽管一次性提示提升了 SIM,零样本方法在清晰度和自然度之间展现出令人信服的平衡。
关于 SIM,MiniMax-Speech 模型在零样本克隆中的得分与真实音频相当。这突显了说话人编码器即使在没有文本或韵律提示的情况下,也能有效提取并保留说话人身份。当在一次性克隆设置中引入示例音频作为提示时,SIM 得分超过了真实音频,优于 CosyVoice2,并与 Seed-TTS 相当。这一发现表明,在零样本方法的基础上引入提示样本可以进一步增强克隆语音的相似性,可能是因为提供了更多关于细粒度声学特征的显式提示。
主观评估
为了在真实场景中全面评估 MiniMax-Speech,本文将模型提交至公开的 TTS 模型排行榜 Artificial Arena。Artificial Arena 使用 ELO 分数对模型进行排名,该分数来源于用户在听取并比较各模型的语音样本后的人类偏好判断。对于这一高要求的评估,MiniMax-Speech 的所有语音样本均通过其先进的零样本说话人克隆能力生成。该方法虽然具有极大的灵活性,但在实现 SOTA 质量方面也面临重大挑战。
如下图 4 所示,本文的模型 MiniMax-Speech(在排行榜中被称为 Speech-02-HD3)获得了领先位置。该最高排名不仅使 MiniMax-Speech 超越了一众强劲的竞争对手,也凸显了其显著优势。具体而言,与 OpenAI 和 ElevenLabs 等其他领先模型相比,ELO 分数反映出用户对 MiniMax-Speech 更高的自然度和更强表现力的明显偏好。
更为引人注目的是,MiniMax-Speech 在 ELO 分数上大幅领先于 Google、Microsoft 和 Amazon 等主要技术提供商的模型。这一显著差距表明,MiniMax-Speech 的底层架构代表了一种更先进的下一代方法。关键在于,本文的零样本生成语音达到了超越那些通常依赖大量数据为特定说话人单独训练模型(例如每个声音需数十小时音频)才能达到最佳性能的系统的质量和用户偏好水平。
能够在完全依赖零样本克隆说话人音色的情况下,实现足以超越领先行业模型(包括那些可能构建于大量说话人特定数据之上的模型)的高度自然度和表现力,充分体现了本文模型的先进能力和泛化能力。这一在公开、基于偏好的基准测试中的卓越表现,显示了 MiniMax-Speech 即便在动态生成新声音的情况下,也能在真实应用中提供极具吸引力和拟人化的听觉体验。
多语言评估
MiniMax-Speech 支持 32 种语言的合成。为了评估其多语言性能,本文构建了一个包含 24 种语言的专用测试集。对于每种语言,该集合包含 100 条不同的测试句子。合成语音使用每种语言中两位说话人(分别为男性和女性)的克隆声音生成,这些说话人来自 Mozilla Common Voice 数据集。每位说话人朗读该语言中 100 条句子中的 50 条独特句子。
本文将 MiniMax-Speech 与 ElevenLabs 的 Multilingual v2 模型在多语言合成方面进行了对比。两个模型的语音均通过零样本语音克隆生成。评估指标和方法与前文中所述一致。除中文外,所有语言的文本识别均使用 Whisper-large-v3 模型。
如下表 2 所示,在 WER 方面,MiniMax-Speech 的表现与 Multilingual v2 相当。对于中文、粤语、泰语、越南语和日语等语言,Multilingual v2 的 WER 超过 10%,而 MiniMax-Speech 始终优于其表现。这种强劲的表现,尤其是在具有复杂声调结构或多样音系的语言中(如中文、粤语、泰语、越南语),表明 MiniMax-Speech 的架构擅长捕捉并再现对这些语言可懂度至关重要的细微声学特征,而这是 Multilingual v2 面临更大挑战的领域。
关于 SIM,MiniMax-Speech 在所有测试语言中均表现出显著优于 Multilingual v2 模型的 SIM 分数。这种在多样语言环境中持续优越的 SIM 表现,凸显了 MiniMax-Speech 的说话人编码器和合成流程在保留说话人身份方面的有效性,无论目标语言的音系特征如何。这是其对文本无关参考处理能力的关键优势。这表明 MiniMax-Speech 在 24 种评估语言中生成的克隆语音更接近真实人声。
跨语言评估
MiniMax-Speech 的一个显著优势来自其说话人编码器架构,即其对跨语言语音合成的原生支持。这使得模型可以为任意说话人在其支持的所有语言中进行语音合成。
这一能力由两个关键方面支撑:
首先,对于零样本说话人克隆,MiniMax-Speech 仅需目标说话人的一小段音频片段,无需任何对应的转录文本。该最小化的数据需求显著降低了克隆新声音的门槛和操作复杂性。这与某些一次性克隆模型形成对比,后者需要带转录的参考音频。这种对转录的依赖不仅使克隆过程复杂化,还可能因转录错误而影响克隆语音的质量。MiniMax-Speech 的方法通过在其零样本克隆中消除对转录的需求,简化了工作流程,并减少了由不准确转录引发的潜在问题。 其次,说话人编码器模块提取的条件向量主要捕捉音色特征,而基本不包含文本语义信息。这一特性有助于模型将音色与语言内容解耦并重新组合,从而使每种独特的音色都能在所有支持的语言中表达语音。
为了验证说话人编码器所支持的跨语言合成能力,本文使用多语言测试集中的中文说话人进行了评估。该评估涉及让这些中文说话人合成多种目标语言的语音。
如下表 3 所示,MiniMax-Speech 在使用其零样本克隆方法时,在所有测试语言中均实现了显著更低的 WER,相较于其一次性方法。此外,所获得的 WER 表明其可懂度水平很高,接近目标语言中高质量母语合成的水平。这些结果表明,说话人编码器架构为 MiniMax-Speech 提供了出色的跨语言合成能力。
相比之下,虽然 MiniMax-Speech 的一次性克隆方法在 SIM 上表现更高,但其在跨语言合成中的发音准确性(如其显著更高的 WER 所示)要差得多。因此,这些发现强调了 MiniMax-Speech 的说话人编码器架构的优势,突出了其在支持零样本和一次性克隆范式方面的灵活性,尤其是在零样本跨语言合成中表现出的更高发音准确性。
说话人条件评估
为了评估不同说话人条件设定方法的有效性,本文使用一部分中文语音数据子集进行了消融研究,训练了三种不同的模型。第一种模型采用了本文可学习的说话人编码器架构,第二种使用了从预训练的说话人验证模型中提取的说话人嵌入(SpkEmbed),第三种则采用了一次性学习策略,仅使用一个示例音频提示。本文使用 WER 和 SIM 指标对这些配置进行了评估。
对下表 4 的分析表明,说话人编码器方法提供了最稳健的性能,在 WER 和 SIM 两方面均取得了强劲结果。相比之下,使用来自预训练说话人模型的说话人嵌入(SpkEmbed)虽然在 SIM 上保持合理水平,但对 WER 产生了不利影响(例如,在零样本中 SpkEmbed 的 WER 为 ,而说话人编码器为 ),表明语音清晰度可能有所下降。这表明本文可学习的说话人编码器具有优势,它可以与合成模型联合优化,可能比固定的、预训练的说话人验证模型更有效地适应目标语音合成任务的细微差别。
相反,在一次性设置中仅依赖提示音频(OnlyPrompt)虽然在本次消融研究中获得了最好的 WER(),但在 SIM 上显著下降()。
本文可学习的说话人编码器,特别是在一次性模式下(WER 为 ,SIM 为 ),实现了最佳平衡,在 WER 上优于 SpkEmbed,在 SIM 上优于 OnlyPrompt。这些结果证实了其在保留语音可懂度和声音特征方面的有效性。因此,它提供了一种比其他方法更为平衡的说话人条件设定方案。在零样本合成中保持强说话人身份(SIM 为 )和良好可懂度(WER 为 )的能力进一步突显了其优势。然而,说话人编码器所使用的参考音频必须与用于自回归 Transformer 合成的目标音频不同。在训练过程中使用相同音频可能导致语义泄漏并降低性能。
Flow-VAE 评估
为了评估 VAE 和 Flow-VAE 的性能,本文在两个主要方面进行了比较:声码器重合成和 TTS 合成。本文从 Seed-TTS的开源中英文测试集中随机选择了一部分作为测试集。
声码器重合成:为了比较 VAE 和 Flow-VAE 的波形重建能力,本文使用两个模型进行重合成。通过在多个维度上比较合成音频与原始音频,计算评估指标。如下表 5 所示,结果表明 Flow-VAE 模型在所有评估指标上均显著优于 VAE 模型。
TTS 合成:为了评估从 VAE 和 Flow-VAE 中提取的潜变量在 TTS 框架中的表现,本文分别基于 VAE 潜变量和 Flow-VAE 潜变量训练了流匹配模型,数据来源为本文数据集中的一个大子集。按照 Seed-TTS的方法,对生成的测试数据在零样本和一次性两种推理设置下进行了 WER 和 SIM 的评估。计算得到的 WER 和 SIM 分数列于下表 6 中。
值得注意的是,与 VAE 模型相比,Flow-VAE 不仅在 WER 和 SIM 指标上具有优势。本文在聆听合成音频时发现,Flow-VAE 在整体稳定性方面也表现出显著优势。本文鼓励读者通过演示链接亲自体验。
扩展功能
由集成说话人编码器学习到的解耦且鲁棒的说话人表示赋予 MiniMax-Speech 显著的灵活性,使其能够轻松扩展到各种下游应用。由于说话人编码器从参考音频中捕捉纯净的声音身份而无需转录,它为这些扩展功能提供了一个稳定且多用途的基础。在本节中,本文详细介绍了三种此类扩展功能:(i) 利用低秩适配(LoRA)技术控制合成语音中的情感表达;(ii) 从自然语言描述中生成任意且多样的音色;(iii) 专业语音克隆(PVC),一种参数高效的微调方法,旨在通过优化相关嵌入来提升特定说话人的合成质量和保真度。
情感控制
情感表达通过如音高和持续时间等韵律特征传达,对自然的合成语音至关重要,并主要由 MiniMax-Speech 中的自回归 Transformer 建模。本文引入了一种使用 LoRA实现精确情感控制的新方法。本文定义离散的情感类别,为每种情感类别使用高质量的情感特定数据集训练独立的 LoRA 模块,并在推理时根据用户选择动态加载相应模块。与自然语言控制相比,该方法在情感表达的精度和稳定性方面具有更高表现。
该方法的有效性在很大程度上依赖于训练数据,其格式为 参考音频, 文本, 目标情感音频。参考音频提供说话人身份,并与目标情感音频形成情感对比,LoRA 模块学习如何在二者之间建立桥梁。本文研究了不同类型的参考音频:
情感一致的参考音频:导致输出情感过度依赖参考情感,限制了直接控制能力。 中性或随机情感参考音频:使得通过指定情感类别实现有效控制成为可能。中性参考由于情感对比更明显,表现出更高的表达力;而随机情感参考则生成了具有稳定说话人相似性的自然语音,可能是因为增强了模型从多样表达中解耦说话人身份的能力。
为了将合成的情感与词汇内容解耦,本文为相同文本收集了多个具有不同情感的音频样本。这训练模型用不同的情感语调表达相同内容,确保所学习的情感表达独立于文本的语义含义。
该 LoRA 方法的一个关键优势在于情感特定模块的训练无需修改预训练的 MiniMax-Speech 核心架构。这简化了训练与部署过程,保留了原始语音克隆性能,并提供了出色的可扩展性。实验结果表明,与现有方法相比,本文的方法在情感表达的准确性和自然度方面实现了显著提升,生成的语音更生动、更具吸引力。
文本转音色(Text to Voice)
大多数现有 TTS 方法在生成特定音色的语音时需要提供该音色的参考音频样本,这一要求限制了其操作灵活性。相较之下,本文提出了一个 T2V 框架,独特地融合了开放式自然语言描述与结构化标签信息。作为参考音频驱动的说话人编码器(擅长克隆已有声音)的补充,该方法促进了高度灵活且可控的音色生成,从而显著增强了 TTS 系统的多样性。
首先,本文构建了一个高质量语音数据集,包含语速、性别、语言、音高和音量等属性。受 Spark-TTS启发,这些属性被离散化(例如,音高根据其赫兹值被划分为六个区间 ,其中 表示"未知")。这些结构化属性随后与文本描述和语音数据结合,形成一组对齐的文本-语音对语料库。
随后,从自回归 Transformer 和流匹配模型中提取音色表示。本文采用主成分分析(PCA)(Maćkiewicz 和 Ratajczak, 1993)将这些高维特征压缩至 维,在保留核心音色特征的同时降低预测这些表示的复杂度。这些压缩后的音色表示与结构化属性及文本描述一起输入至一个紧凑的音色生成模型。该模型训练以将自然语言音色描述和离散语音属性映射到前述压缩后的音色表示空间。在训练阶段,引入了一种随机掩码增强机制:以预设概率随机掩盖文本描述中的关键语义词,从而增强模型对不完整输入的鲁棒性。
该框架通过结合开放式文本描述与结构化标签参数,建立了一个多用途的音色生成系统。该系统有效统一了基于文本的描述与音频提取的音色表示,用于音色控制,使用户能够使用自然语言生成所需的声音特征(例如:"一个温暖、略快语速的中年女性声音"),从而显著增强了音频复现场景的灵活性。
专业语音克隆(Professional Voice Clone)
MiniMax-Speech 模型中的可学习说话人编码器不仅在零样本语音克隆任务中提供了增强的灵活性(由于其与文本无关的操作方式以及捕捉纯净声音身份的能力),还为面向个体说话人的高效快速参数微调提供了一条简化路径。受当前参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法的启发,本文引入了一种新颖的微调策略。该策略将条件嵌入(conditional embedding)视为一组可学习参数,该嵌入封装了特定说话人的声音身份(最初由说话人编码器对声音特征的理解得出)。在面向目标说话人的微调阶段,该专用嵌入被优化,用以替代原有的说话人编码器。
具体而言,为了优化任意目标说话人的音色,首先收集其语音数据。在整个微调过程中,自回归 Transformer 被用作基础模型,其所有参数保持固定(即"冻结")。优化仅在与目标说话人相关的条件嵌入上进行,将其视为此次适配中唯一可训练的参数集。随后,在推理阶段,该经过微调的、特定说话人的条件嵌入被直接调用,以取代标准说话人编码器实时生成的输出。
PVC 的基本原理是细化说话人编码器所建立的潜在空间中的说话人表示。尽管说话人编码器能够从参考音频中充分捕捉关键信息以实现零样本语音克隆,但如果可以获得该说话人充足的语音数据,其生成的条件嵌入仍可进一步优化以提高准确性。相比优化整个已高度泛化的说话人编码器,微调紧凑的条件嵌入更具可行性,并能更灵活地适配个体说话人。本文的实验表明,在适当的超参数调节下,该 PVC 方法能够合成出在音色保真度和整体感知质量方面更贴近目标说话人的语音,尤其适用于口音强烈或声音特征鲜明的说话人。
该方法还在可扩展性和效率方面展现出显著优势。由于每位说话人的适配仅需优化一个向量嵌入,系统可轻松实现对成千上万名不同说话人的微调与部署。这一过程无需更改基础模型的核心架构,也不需为每位说话人部署完整独立的模型。与监督式微调(SFT)或甚至 LoRA 等方法相比,本文提出的技术显著降低了训练复杂度和计算资源开销。同时,该方法还能提升合成语音的说话人相似度与自然度,突显其在真实应用中的卓越实用性与可扩展性。例如,在教育场景中的应用使得针对特定教师声音的定向微调成为可能,从而高效生成个性化音频内容,丰富教学材料并提升学习者的参与度。
结论(Conclusion)
MiniMax-Speech,一种基于自回归 Transformer 的文本转语音(TTS)模型。现有的 TTS 方法,尤其是在稳健的零样本语音克隆和高保真合成方面,常面临诸如对转录参考音频的依赖(限制了跨语言能力与表现力)或因生成组件的限制而难以实现最佳音频质量与说话人相似度等挑战。为应对这些限制,MiniMax-Speech 引入了关键创新:其可学习的说话人编码器以及本文提出的、集成于流匹配机制中的 Flow-VAE 架构。
具体而言,可学习的说话人编码器通过直接从参考音频中提取说话人音色(关键在于无需配套文本),实现了稳健的零样本语音克隆,在跨语言场景中表现出色,并为生成更丰富、更自然的韵律变化提供了更广阔的解码空间。同时,本文的 Flow-VAE 增强了音频生成过程中信息表示的能力,进一步提升了合成语音的整体音质与说话人相似度。通过这一组合方法,MiniMax-Speech 能够支持 32 种语言的语音合成。
此外,该模型在客观与主观评估中展现出 SOTA(state-of-the-art)性能,尤其在语音克隆指标上取得领先成绩,并在公开的 TTS Arena 排行榜上占据首位。说话人编码器所带来的可扩展性已通过诸如基于 LoRA 的情感控制、文本驱动的音色生成以及高效的专业语音克隆等应用得以验证,确立了 MiniMax-Speech 在高保真、富表现力且可控的语音合成领域中的强大与多功能性。未来工作将继续探索在可控性与效率方面的进一步提升。
参考文献
[1] MiniMax-Speech:Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论