NeuTTS Air 是全球首款超逼真、设备内置的 TTS 语音语言模型,支持即时语音克隆。
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
NeuTTS Air 由 Neuphonic 于 2025 年 10 月发布,代表了无障碍且注重隐私的文本转语音 (TTS) 技术的突破。这款开源模型采用 Apache 2.0 许可,可在笔记本电脑、智能手机和 Raspberry Pi 等日常设备上实现实时语音合成,无需依赖云 API 或 GPU。通过将轻量级语言模型与新型音频编解码器相结合,NeuTTS Air 为从嵌入式助手到合规性要求较高的工具等各种应用带来了高质量的语音 AI 普及化。
。目前已经冲到了Huggingface热门榜第一名。
主要特点
🗣 同尺寸产品中最佳的真实感——产生自然、超现实的声音,听起来像人类的声音 📱针对设备部署进行了优化 - 以 GGML 格式提供,可在手机、笔记本电脑甚至 Raspberry Pi 上运行 👫即时语音克隆——只需 3 秒的音频即可创建您自己的扬声器 🚄基于 0.5B 主干网构建的简单 LM + 编解码器架构 - 速度、大小和质量之间的最佳平衡点,适用于实际应用
模型详细信息
NeuTTS Air 基于 Qwen 0.5B 构建,Qwen 0.5B 是一种轻量级但功能强大的语言模型,针对文本理解和生成进行了优化,同时还采用了专为提高效率和质量而设计的强大技术组合:
音频编解码器:NeuCodec - 我们专有的神经音频编解码器,使用单个码本在低比特率下实现卓越的音频质量 格式:采用 GGML 格式,可实现高效的设备推理 责任:水印输出 推理速度:在中端设备上实时生成 功耗:针对移动和嵌入式设备进行了优化
相关链接
代码:https://github.com/neuphonic/neutts-air 试用:https://huggingface.co/spaces/neuphonic/neutts-air
使用教程
克隆Git 仓库
git clone https://github.com/neuphonic/neutts-air.git cd neuttsair
安装 espeak (必需依赖项)
有关如何安装的说明,请参阅以下链接 espeak:
https://github.com/espeak-ng/espeak-ng/blob/master/docs/guide.md
Mac OS
brew install espeak
Ubuntu/Debian
sudo apt install espeak
安装 Python 依赖项
需求文件包含使用 PyTorch 运行模型所需的依赖项。使用 ONNX 解码器或 GGML 模型时,某些依赖项(例如 PyTorch)不再需要。
该推论是兼容的并且已在 上进行测试 python>=3.11。
pip install -r requirements.txt
基本示例
python -m examples.basic_example \ --input_text "My name is Dave, and um, I'm from London" \ --ref_audio samples/dave.wav \ --ref_text samples/dave.txt
from neuttsair.neutts import NeuTTSAir
import soundfile as sf
tts = NeuTTSAir( backbone_repo="neuphonic/neutts-air-q4-gguf", backbone_device="cpu", codec_repo="neuphonic/neucodec", codec_device="cpu")
input_text = "My name is Dave, and um, I'm from London."
ref_text = "samples/dave.txt"
ref_audio_path = "samples/dave.wav"
ref_text = open(ref_text, "r").read().strip()
ref_codes = tts.encode_reference(ref_audio_path)
wav = tts.infer(input_text, ref_codes, ref_text)
sf.write("test.wav", wav, 24000)
NeuTTS Air 需要两个输入:
参考音频样本(.wav文件) 文本字符串
然后,该模型会将文本合成为参考音频风格的语音。这便是 NeuTTS Air 即时语音克隆功能的原理。
最佳结果指南
为了获得最佳性能,参考音频样本应该是:
单声道 16-44 kHz采样率 时长 3 至 15 秒 另存为.wav文件 干净——背景噪音极小甚至没有 自然、连续的语音——就像独白或对话一样,几乎没有停顿,因此模型可以有效地捕捉语调。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论