AI I024: UniVoice：首个在大语言模型中统一自回归语音识别和流匹配语音合成的框架。

2025年11月2日星期日

UniVoice：首个在大语言模型中统一自回归语音识别和流匹配语音合成的框架。

添加微信号：AIGC_Tech，公众号小助手会拉你进群！点击下方名片关注AIGC Studio公众号！

添加微信号：AIGC_Tech，公众号小助手会拉你进群！

点击下方名片关注AIGC Studio公众号！获取最新AI前沿应用/AIGC实践教程！

厦大联合上海创智学院等单位发布统一语音处理框架UniVoice，一个模型既能准确识别语音内容，又能高质量合成语音，实现了语音理解和生成的统一建模。

unsetunset相关链接unsetunset

Arxiv: https://arxiv.org/pdf/2510.04593

Github: https://github.com/gwh22/UniVoice

Demo: https://univoice-demo.github.io/UniVoice

unsetunset一、背景与挑战unsetunset

近年来，大语言模型（LLM）在语音识别（ASR）与文本转语音（TTS）任务中展现出强大潜力，但现有研究大多将两者作为独立任务处理。传统方法依赖离散语音表征（如语音编码器），导致音质损失和灵活性受限。如何在一个框架内协同优化语音理解与生成，成为亟待突破的难题。

unsetunset二、UniVoice的核心创新unsetunset

UniVoice首次将自回归语音识别与流匹配（Flow Matching）语音合成整合于单一LLM架构中，通过连续表征避免离散化的信息损失，实现端到端的高效处理。其核心突破包括：

双分支混合架构

ASR分支：采用因果Transformer，结合Whisper编码器提取语音特征，实现精准的序列化识别。
TTS分支：基于流匹配的扩散Transformer，通过文本前缀引导的语音填充技术，生成高保真语音。

动态注意力机制

针对自回归（需因果掩码）与流匹配（需全上下文访问）的冲突，设计可切换的注意力掩码：

ASR任务使用因果掩码保证序列依赖性；

TTS任务启用双向注意力，充分利用上下文信息提升生成质量。

零样本语音克隆

通过文本前缀条件化语音填充方法，仅需3秒参考音频即可克隆说话人音色，支持多语言与复杂场景。

unsetunset三、实验与性能验证unsetunset

在50K小时LibriHeavy数据集上训练后，UniVoice在多项任务中表现卓越：

unsetunset四、技术优势与局限性unsetunset

优势：

参数高效：基于360M参数的SmolLM2，轻量级设计适配边缘计算；
扩展性强：框架支持未来融入语音翻译、对话等任务。

局限性：

当前仅支持ASR与TTS，未覆盖语音对话场景；
训练数据规模有限，扩大数据可进一步提升性能。

unsetunset五、应用前景unsetunset

UniVoice 为智能助手、无障碍通信、多模态交互提供了一体化解决方案，其开源将推动语音技术更快地发展。

通过统一架构与创新设计，UniVoice标志着语音技术从"单任务专精"迈向"多任务协同"的重要里程碑。

感谢你看到这里，添加小助手 AIGC_Tech 加入官方 AIGC读者交流群，下方扫码加入 AIGC Studio 星球，获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等，欢迎一起交流学习💗～

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024