2025年11月2日星期日

UniVoice:首个在大语言模型中统一自回归语音识别和流匹配语音合成的框架。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!

添加微信号:AIGC_Tech,公众号小助手会拉你进群!

点击下方名片关注AIGC Studio公众号获取最新AI前沿应用/AIGC实践教程

厦大联合上海创智学院等单位发布统一语音处理框架UniVoice,一个模型既能准确识别语音内容,又能高质量合成语音,实现了语音理解和生成的统一建模。

unsetunset相关链接unsetunset

Arxiv: https://arxiv.org/pdf/2510.04593

Github: https://github.com/gwh22/UniVoice

Demo: https://univoice-demo.github.io/UniVoice

unsetunset一、背景与挑战unsetunset

近年来,大语言模型(LLM)在语音识别(ASR)与文本转语音(TTS)任务中展现出强大潜力,但现有研究大多将两者作为独立任务处理。传统方法依赖离散语音表征(如语音编码器),导致音质损失和灵活性受限。如何在一个框架内协同优化语音理解与生成,成为亟待突破的难题。

unsetunset二、UniVoice的核心创新unsetunset

图片

UniVoice首次将自回归语音识别与流匹配(Flow Matching)语音合成整合于单一LLM架构中,通过连续表征避免离散化的信息损失,实现端到端的高效处理。其核心突破包括:

双分支混合架构

  • ASR分支:采用因果Transformer,结合Whisper编码器提取语音特征,实现精准的序列化识别。

  • TTS分支:基于流匹配的扩散Transformer,通过文本前缀引导的语音填充技术,生成高保真语音。

动态注意力机制

针对自回归(需因果掩码)与流匹配(需全上下文访问)的冲突,设计可切换的注意力掩码:

ASR任务使用因果掩码保证序列依赖性;

TTS任务启用双向注意力,充分利用上下文信息提升生成质量。

零样本语音克隆

通过文本前缀条件化语音填充方法,仅需3秒参考音频即可克隆说话人音色,支持多语言与复杂场景。

unsetunset三、实验与性能验证unsetunset

在50K小时LibriHeavy数据集上训练后,UniVoice在多项任务中表现卓越:

图片

unsetunset四、技术优势与局限性unsetunset

优势:

  • 参数高效:基于360M参数的SmolLM2,轻量级设计适配边缘计算;

  • 扩展性强:框架支持未来融入语音翻译、对话等任务。

局限性:

  • 当前仅支持ASR与TTS,未覆盖语音对话场景;

  • 训练数据规模有限,扩大数据可进一步提升性能。

unsetunset五、应用前景unsetunset

UniVoice 为智能助手、无障碍通信、多模态交互提供了一体化解决方案,其开源将推动语音技术更快地发展。

通过统一架构与创新设计,UniVoice标志着语音技术从"单任务专精"迈向"多任务协同"的重要里程碑。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

UniVoice:首个在大语言模型中统一自回归语音识别和流匹配语音合成的框架。

添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号! 添加微信号:AIGC_Tech,公众号小助手会拉你进群! 点击下方名片关注AIGC Studio公众号 ! 获取 最新AI前沿应用/ AIGC实践教程 ! 厦大联合上海创智...