AI I024: Qwen3-Omni：新一代原生全模态大模型！

2025年10月4日星期六

Qwen3-Omni：新一代原生全模态大模型！

全模态，不降智！

我们正式发布了Qwen3-Omni——新一代原生全模态大模型，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音输出。我们引入了多种升级来提升模型表现和效率。

主要特点：

原生全模态：Qwen3-Omni是原生全模态大模型，预训练全模态不降智。
强大的性能：Qwen3-Omni在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA，超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型，同时其图像和文本性能也在同尺寸模型中达到SOTA水平。
多语言：Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言。
更快响应：Qwen3-Omni纯模型端到端音频对话延迟低至211ms，视频对话延迟低至507ms。
长音频：Qwen3-Omni支持长达30分钟音频理解。
个性化：Qwen3-Omni支持system prompt随意定制，可以修改回复风格，人设等。
工具调用：Qwen3-Omni支持function call，实现与外部工具/服务的高效集成。
开源通用音频Captioner：开源Qwen3-Omni-30B-A3B-Captioner，低幻觉且非常详细的通用音频caption模型，填补开源社区空白。

使用方式：

QwenChat：

chat.qwen.ai

HuggingFace：

https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

ModelScope：

https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f

GitHub：

https://github.com/QwenLM/Qwen3-Omni

模型架构

Qwen3-Omni采用Thinker-Talker架构：Thinker负责文本生成，Talker专注于流式语音Token生成，直接接收来自Thinker的高层语义表征。为实现超低延迟流式生成，Talker通过自回归方式预测多码本序列：在每一步解码中，MTP模块输出当前帧的残差码本，随后Code2Wav合成对应波形，实现逐帧流式生成。

创新架构设计

AuT：音频编码器采用基于2000万小时音频数据训练的AuT模型，具备极强的通用音频表征能力。

MoE：Thinker与Talker均采用MoE架构，支持高并发与快速推理。

多码本技术：Talker采用多码本自回归方案——每步生成一个编解码帧，MTP模块同步输出剩余残差码本。

全模态不降智

在文本预训练早期混合单模态与跨模态数据，可实现各模态混训性能相比纯单模态训练性能不下降，同时显著增强跨模态能力。

卓越的语音对话与指令跟随能力

Qwen3-Omni在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平。

实时音频和音视频交互

AuT，Thinker, Talker + Code2wav全流程全流式，支持首帧token直接流式解码为音频输出。

模型性能

Qwen3-Omni在全方位性能评估中，其单模态任务表现与类似大小的Qwen系列单模态模型持平，尤其在音频任务中展现显著优势。该模型在36项音视频基准测试中，36项测试中的32项取得开源领域最佳性能，22项达到SOTA水平，性能超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等性能强大的闭源模型。