添加微信号:AIGC_Tech,公众号小助手会拉你进群!点击下方名片关注AIGC Studio公众号!
点击下方名片关注AIGC Studio公众号!获取最新AI前沿应用/AIGC实践教程!
厦大联合上海创智学院等单位发布统一语音处理框架UniVoice,一个模型既能准确识别语音内容,又能高质量合成语音,实现了语音理解和生成的统一建模。
相关链接
Arxiv: https://arxiv.org/pdf/2510.04593
Github: https://github.com/gwh22/UniVoice
Demo: https://univoice-demo.github.io/UniVoice
一、背景与挑战
近年来,大语言模型(LLM)在语音识别(ASR)与文本转语音(TTS)任务中展现出强大潜力,但现有研究大多将两者作为独立任务处理。传统方法依赖离散语音表征(如语音编码器),导致音质损失和灵活性受限。如何在一个框架内协同优化语音理解与生成,成为亟待突破的难题。
二、UniVoice的核心创新
UniVoice首次将自回归语音识别与流匹配(Flow Matching)语音合成整合于单一LLM架构中,通过连续表征避免离散化的信息损失,实现端到端的高效处理。其核心突破包括:
双分支混合架构
ASR分支:采用因果Transformer,结合Whisper编码器提取语音特征,实现精准的序列化识别。
TTS分支:基于流匹配的扩散Transformer,通过文本前缀引导的语音填充技术,生成高保真语音。
动态注意力机制
针对自回归(需因果掩码)与流匹配(需全上下文访问)的冲突,设计可切换的注意力掩码:
ASR任务使用因果掩码保证序列依赖性;
TTS任务启用双向注意力,充分利用上下文信息提升生成质量。
零样本语音克隆
通过文本前缀条件化语音填充方法,仅需3秒参考音频即可克隆说话人音色,支持多语言与复杂场景。
三、实验与性能验证
在50K小时LibriHeavy数据集上训练后,UniVoice在多项任务中表现卓越:
四、技术优势与局限性
优势:
参数高效:基于360M参数的SmolLM2,轻量级设计适配边缘计算;
扩展性强:框架支持未来融入语音翻译、对话等任务。
局限性:
当前仅支持ASR与TTS,未覆盖语音对话场景;
训练数据规模有限,扩大数据可进一步提升性能。
五、应用前景
UniVoice 为智能助手、无障碍通信、多模态交互提供了一体化解决方案,其开源将推动语音技术更快地发展。
通过统一架构与创新设计,UniVoice标志着语音技术从"单任务专精"迈向"多任务协同"的重要里程碑。
感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~
没有评论:
发表评论