最近发现一个不错的tts方言包,支持多人对话,可以做多人对话博客了,博主第一时间体验了一下,觉得挺有意思
概述
SoulX-Podcast 专为播客风格的多轮、多说话人对话语音生成而设计,同时在传统的独白 TTS 任务中也取得了优异的性能。
为了满足多轮口语对话对自然度的更高要求,SoulX-Podcast 集成了一系列副语言控制功能,支持普通话和英语,以及四川话、河南话、粤语等多种中文方言,从而能够生成更加个性化的播客风格语音。
主要特点 🔥
长篇、多轮、多说话人对话语音生成:SoulX-Podcast 擅长为多轮、多说话人场景生成高质量、听起来自然的对话语音。
跨方言、零样本语音克隆:SoulX-Podcast 支持跨不同中文方言的零样本语音克隆,能够以任何支持的方言生成高质量的个性化语音。
副语言控制:SoulX-Podcast 支持各种副语言事件,例如笑声和叹息,以增强合成结果的真实性。
conda create -n soulxpodcast -y python=3.11conda activate soulxpodcastpip3 install torch==2.7.1 torchvision torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu118pip install -r requirements.txtpip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
pip install -U huggingface_hub# base modelhuggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B# dialectal modelhuggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect
没有评论:
发表评论