2025年10月4日星期六

Qwen3-Omni:新一代原生全模态大模型!

全模态,不降智!

图片


我们正式发布了Qwen3-Omni——新一代原生全模态大模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。我们引入了多种升级来提升模型表现和效率。


主要特点:

  • 原生全模态:Qwen3-Omni是原生全模态大模型,预训练全模态不降智。

  • 强大的性能:Qwen3-Omni在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时其图像和文本性能也在同尺寸模型中达到SOTA水平。

  • 多语言:Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言。

  • 更快响应:Qwen3-Omni纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms。

  • 长音频:Qwen3-Omni支持长达30分钟音频理解。

  • 个性化:Qwen3-Omni支持system prompt随意定制,可以修改回复风格,人设等。

  • 工具调用:Qwen3-Omni支持function call,实现与外部工具/服务的高效集成。

  • 开源通用音频Captioner:开源Qwen3-Omni-30B-A3B-Captioner,低幻觉且非常详细的通用音频caption模型,填补开源社区空白。



使用方式:

QwenChat:

chat.qwen.ai

图片

HuggingFace:

https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

ModelScope:

https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f

GitHub:

https://github.com/QwenLM/Qwen3-Omni



模型架构


Qwen3-Omni采用Thinker-Talker架构:Thinker负责文本生成,Talker专注于流式语音Token生成,直接接收来自Thinker的高层语义表征。为实现超低延迟流式生成,Talker通过自回归方式预测多码本序列:在每一步解码中,MTP模块输出当前帧的残差码本,随后Code2Wav合成对应波形,实现逐帧流式生成。


创新架构设计

AuT:音频编码器采用基于2000万小时音频数据训练的AuT模型,具备极强的通用音频表征能力。

MoE:Thinker与Talker均采用MoE架构,支持高并发与快速推理。

多码本技术:Talker采用多码本自回归方案——每步生成一个编解码帧,MTP模块同步输出剩余残差码本。


全模态不降智

在文本预训练早期混合单模态与跨模态数据,可实现各模态混训性能相比纯单模态训练性能不下降,同时显著增强跨模态能力。


卓越的语音对话与指令跟随能力

Qwen3-Omni在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平。


实时音频和音视频交互

AuT,Thinker, Talker + Code2wav全流程全流式,支持首帧token直接流式解码为音频输出。


图片



模型性能


Qwen3-Omni在全方位性能评估中,其单模态任务表现与类似大小的Qwen系列单模态模型持平,尤其在音频任务中展现显著优势。该模型在36项音视频基准测试中,36项测试中的32项取得开源领域最佳性能,22项达到SOTA水平,性能超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等性能强大的闭源模型。


图片


图片



下一步


我们期待听到您的反馈,并看到您使用Qwen3-Omni开发的创新应用。在不久的将来,我们将沿多个技术方向持续推进模型升级,包括多说话人ASR、视频OCR、音视频主动学习等核心能力建设,并强化基于智能体的工作流与函数调用支持。



图片

关注我,掌握千问大模型最新动态



图片
图片
图片
图片

图片

没有评论:

发表评论

20。3K Star!鼠标一滑秒切3台电脑!跨平台神器!

推荐阅读: 推荐:一个为「高性能知识库而生」的文档解析产品! 推荐!一个基于频道模式的团队沟通协作+轻量级任务看板!五星好评! 各位朋友们,大家好!我是老码,我平常的工作就是特意去搜寻一些既好玩又好用还很有趣的项目,对于那些喜欢我分享内容的朋友,我想说如果你们愿意的话,可以帮...