全模态,不降智!
我们正式发布了Qwen3-Omni——新一代原生全模态大模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。我们引入了多种升级来提升模型表现和效率。
主要特点:
原生全模态:Qwen3-Omni是原生全模态大模型,预训练全模态不降智。
强大的性能:Qwen3-Omni在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时其图像和文本性能也在同尺寸模型中达到SOTA水平。
多语言:Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言。
更快响应:Qwen3-Omni纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms。
长音频:Qwen3-Omni支持长达30分钟音频理解。
个性化:Qwen3-Omni支持system prompt随意定制,可以修改回复风格,人设等。
工具调用:Qwen3-Omni支持function call,实现与外部工具/服务的高效集成。
开源通用音频Captioner:开源Qwen3-Omni-30B-A3B-Captioner,低幻觉且非常详细的通用音频caption模型,填补开源社区空白。
使用方式:
QwenChat:
chat.qwen.ai
HuggingFace:
https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
ModelScope:
https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f
GitHub:
https://github.com/QwenLM/Qwen3-Omni
模型架构
Qwen3-Omni采用Thinker-Talker架构:Thinker负责文本生成,Talker专注于流式语音Token生成,直接接收来自Thinker的高层语义表征。为实现超低延迟流式生成,Talker通过自回归方式预测多码本序列:在每一步解码中,MTP模块输出当前帧的残差码本,随后Code2Wav合成对应波形,实现逐帧流式生成。
创新架构设计
AuT:音频编码器采用基于2000万小时音频数据训练的AuT模型,具备极强的通用音频表征能力。
MoE:Thinker与Talker均采用MoE架构,支持高并发与快速推理。
多码本技术:Talker采用多码本自回归方案——每步生成一个编解码帧,MTP模块同步输出剩余残差码本。
全模态不降智
在文本预训练早期混合单模态与跨模态数据,可实现各模态混训性能相比纯单模态训练性能不下降,同时显著增强跨模态能力。
卓越的语音对话与指令跟随能力
Qwen3-Omni在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平。
实时音频和音视频交互
AuT,Thinker, Talker + Code2wav全流程全流式,支持首帧token直接流式解码为音频输出。
模型性能
Qwen3-Omni在全方位性能评估中,其单模态任务表现与类似大小的Qwen系列单模态模型持平,尤其在音频任务中展现显著优势。该模型在36项音视频基准测试中,36项测试中的32项取得开源领域最佳性能,22项达到SOTA水平,性能超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等性能强大的闭源模型。
下一步
我们期待听到您的反馈,并看到您使用Qwen3-Omni开发的创新应用。在不久的将来,我们将沿多个技术方向持续推进模型升级,包括多说话人ASR、视频OCR、音视频主动学习等核心能力建设,并强化基于智能体的工作流与函数调用支持。
关注我,掌握千问大模型最新动态
没有评论:
发表评论