2025年4月29日星期二

阿里深夜开源Qwen3,国产AI卷疯了!全网首测!

今早凌晨 5 点,阿里开源了他们最新的基座大模型 Qwen3(千问3)!

图片

看得我都有点精神恍惚,这个性能对比图,我直接看傻了:

图片
图片

这简直是性能怪兽,最新开源的 Qwen3-235B-A22B、Qwen3-32B 全面领先 OpenAI-o1、DeepSeek-R1、Grok 3 Beta 等。

我其实关注并使用 Qwen 很久了,完全是看着它一路坚持开源,并不断突破的。

不知道大家有没有发现一个现象:越来越多的企业和研究者,把阿里千问模型作为基座,开发各类衍生产品。

这一趋势绝非偶然,而是有深层次的原因,已有研究者专门分析了其中的奥秘:

图片

在一项对比实验中,研究者用相同的数据、相同的训练环境,分别训练了千问2.5和LLaMA-3,结果发现:千问2.5的效果始终优于LLaMA-3。

更令人惊讶的是,千问2.5展现出了更强的学习能力:在同样的数据量下,千问学得更快、效果更好,而LLaMA-3要达到相同水平,必须消耗更多的数据。

如果用一个简单的比喻,这就好比学霸和普通人在读同一本书:学霸不仅学得快,而且学得牢。

这篇研究论文指出,千问底座模型在初期训练上投入了巨大精力,加上采用更加优秀的模型架构设计,基础非常夯实。

而现如今,Qwen3(千问3)都来了!

一、千问3

阿里千问团队在这个夯实的基础上,再进一步,正式开源了新一代的通义千问模型:Qwen3(千问3)!

这代千问3,性能方面全面超越了Deepseek-R1、OpenAI-o1及等国内外领先模型的同时, 4 张 H20 就能实现本地满血部署,显存占用仅为性能相近模型的三分之一。

同时,千问3遵循Apache 2.0开源协议,支持免费下载与商用,延续千问家族开源的传统。

体验方法也很简单,现在可以通过阿里云百炼调用API,或者在通义 App 上直接使用,夸克浏览器也即将上线接入。

  • Qwen Chat

https://chat.qwenlm.ai

  • Hugging Face

https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

  • ModelScope

https://modelscope.cn/collections/Qwen3-9743180bdc6b48

  • GitHub

https://github.com/QwenLM/Qwen3

  • 通义APP

二、全尺寸覆盖

这次千问3一口气发布了8个尺寸的模型,覆盖面很广:

  • 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B

  • 2款MoE模型:Qwen3-30B-A3B和旗舰版 Qwen3-235B-A22B

图片

其中旗舰版Qwen3-235B-A22B,总参数量达到了2350亿,但推理时只用激活220亿——相当于在保证效果的同时,大幅降低了推理成本(比同类比如DeepSeek-R1便宜了35%左右)

对普通玩家也很友好,比如Qwen3-30B-A3B,虽然总参数是300亿,但推理只激活30亿,性能对标上代Qwen2.5-32B,而且效率直接提升了10倍以上,家用显卡就能跑得动

此外,还有超小的Qwen3-0.6B,看来是为了手机等端侧部署,进行提前布局。

三、实际测试

这次千问团队从版本2.5升级到版本3,看起来并不是简单地参数堆叠或小修小补,而是深层次的改进啊。

它支持,混合快慢推理,MCP支持,多语言支持等等。

性价比与效率齐聚一身

以前用OpenAI、Gemini的时候,总纠结选哪个型号——o1?4o?mini-high?选模型花半天时间。

但是,千问3这次化繁为简。他们把顶尖的推理和非推理模式融合到了一个模型里面,实现了「既能快答简单问题,也能深思复杂问题」的效果。

目前,在开源世界里的模型只有千问3可以做到这一点,闭源的则是Claude3.7以及Gemini 2.5 Flash。

这就好比我们人类的快慢思考过程,当遇到简单问题,我们能迅速给出反应,当遇到有难度和深度问题时候,我们进行一步步问题拆解,分析,归类,用相对较长的时间进行思考,再给出答案。

之前我在用DeepSeek的时候经常发现模型会有无效思考时候,浪费生成思考字数和时间。千问为了解决这一痛点,支持设置思考字数滴控制,满足开发者在时间与成本上的自由权衡。这次真的用心了!

图片

也就是说,再运行深度思考之前,可以手动调节这个思考预算,花费多少 tokens 预算你说了算。

你可以像我这样,直接满预算跑,给它出个脑筋急转弯:等红灯时在等绿灯还是红灯?Qwen3-235B-A22B 可以很快给出正确答案:

图片

我从 Leetcode 找了一道难度系数为困难的编程题:

图片

它的回答是这样的:

图片
图片

运行结果直接击败 **97.72%**:

图片

在数学方面,我们先来一道初中题目试试水:"如果 f(x)=3x−2x−2f(x) = (3x-2)/(x-2),那么 f(−2)+f(−1)+f(0)f(-2) + f(-1) + f(0) 的值是多少?请用最简分数表示你的答案"。正确答案:14/3。初中题目千问3随便轻松拿捏啊。

图片

你也可以控制预算,这次我给到它11264的token预算,但是实际上并没有全部用完。我拿出一道2022年高考乙卷的数学题:我们已知三角形 △ABC 的内角 A,B,C 对应的边分别为 a,b,c,且满足以下恒等式:sinC⋅sin(A−B)=sinB⋅sin(C−A)并附加条件:若 A=2B,求角 C。

部分思考过程:

图片

最终结果:

图片

最近的小球测试也是难道众多的大模型,看看千问3是否能轻松拿下。

提示词:"write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically。

很快就得到了运行代码:

图片

这是代码运行的结果:

强大Agent表现

为了迎接智能体时代的大爆发,千问团队也是看准了未来的趋势,在智能体这一方面也是做足充分的准备。

像最近爆火的MCP,它也是原生支持,也为各式各样的Agent框架包括Qwen-Agent进行优化调整,使其具备天然强大的工具调用、结构化输出与多模态协作能力,延续千问家族在基座模型上就有优越表现的传统。

在BFCL智能体评测中,千问3打破开源纪录,展现出领先的Agent执行能力。

多语言支持

千问3,它支持多达119种语言,覆盖多语种的需求。我觉得这也是非常重要的一个方向,就比如我前段时间学习西班牙语,感觉到现在的大模型对于小语种的表现好像还是有所欠缺。所以这对于学习小语种的朋友也是一个加分项。

更重要的是,让那些小语种,没有能力自行训练大模型的国家和地区来说,千问3的开源,让他们第一次有了属于自己的AI。

图片

测试一下,多语种写诗歌的能力。

  1. 中文:用优雅的诗歌语言,描述量子碰撞
  2. 日语:優雅な詩のような言葉で、量子衝突を描写してください。
  3. 西班牙语:Describe la colisión cuántica con un lenguaje elegante y poético.
  4. 世界语:描述优雅和诗意语言的量子碰撞。
  5. 德语:Beschreibe die Quantenkollision in eleganter, poetischer Sprache.
  6. 泰语:อธิบายการชนกันของควอนตัมด้วยภาษากวีที่งดงาม
  7. 泰米尔语:குவாண்டம் மோதல்களை அழகான கவிதை மொழியில் விவரிக்கவும்.
图片

虽然我不太懂其它语言,但是这回答看起来有模有样的。我用谷歌翻译一下生成的泰米尔语,感觉写的还是挺有感觉的。对于精通这些语言的小伙伴,可以亲自玩玩千问3。

图片

四、最后

今天的千问3,并不是一蹴而就。它的诞生,让我看到的是阿里16年技术积累的结果。

截至目前,千问家族衍生出的模型数量已经突破10万款,正式超越LLaMA家族,成为全球最大的开源大模型体系!

图片

从2009年开始自研云计算(阿里云),到2022年正式推出通义千问大模型体系,阿里坚持自主创新,打通了算力-算法-应用全链路,逐步构建起智能时代的核心基础设施。

图片

另外还有不少独立的研究验证了千问的基座实力:

  • 李飞飞团队的一项关于RL的训练研究:他们以阿里通义千问 Qwen2.5-32B-Instruct 为底座,用1000条数据训练出新模型 s1-32B,数学和编码能力已接近 OpenAI o1 和 DeepSeek R1,且在竞赛数学任务上,比 o1-preview 高出27%。
  • 更早前,DeepSeek通过蒸馏出的6个推理模型中,有4个基于Qwen-32B,多个能力指标对标 OpenAI o1-mini。

这些成果的背后,正是千问打磨出的强大基座在默默支撑着整个国产AI生态的崛起。

千问3不仅是一次技术更新,更是国产科技厚积薄发的标志。

在全球AI赛道上,我们看到了真正意义上的国产力量:以坚实的底座为基础,生长出越来越强大的衍生模型与应用,迈向更高远的未来。

没有评论:

发表评论

GPT4o生成的烂自拍,反而比我们更真实。

真实是未经表演的存在。 我是没想到,GPT4o用一段小小的Prompt生成的一些图片,引发的热度浪潮。 能有这么长久,现在依然不断冒出着,各种创意。 我相信无数人都在社交平台里,刷到过这些图。 比如京东外卖跟美团外卖干架干的热火朝天。 但是强子跟兴哥,却穿着各自的工服,在上海...