就在昨天凌晨,阿里发布了最新的推理模型 Qwen-32B,这款模型参数量"仅"为 320 亿,却在性能上直逼拥有 6710 亿参数的 DeepSeek-R1 满血版。
尽管 QwQ-32B 的性价比和创新性都非常强,但发布时间刚好跟 Manus 撞上了,昨天大家的关注点都在 Manus 上,反而忽略了QwQ-32B。
(QwQ 每次看到这个名字,都觉得好萌哈哈 )
为什么说它厉害?
可以从三个方面来看:能力相当、成本碾压 、本地部署友好、训练方法创新。
根据官方数据,在多个权威测试中都表现出色,几乎完全超越了 OpenAI 的 o1-mini,和最强开源推理模型 DeepSeek-R1 打了个平手。
特别是在数学和代码能力上,QwQ-32B 更是和 DeepSeek-R1 不相上下👇。
QwQ-32B 的推理成本仅为DeepSeek-R1的1/10。输出相同内容时,QwQ-32B仅需0.25美元 ,而DeepSeek-R1需2.5美元 ,成本节省超90%。
还支持消费级GPU(如NVIDIA A100或苹果M1/M2芯片),普通用户无需昂贵算力即可本地运行。
这是怎么做到的?原因就在于强化学习(Reinforcement Learning, RL)。
传统的语言模型训练,往往依赖于大量的标注数据和"奖励模型"。而 QwQ-32B 则另辟蹊径,采用了验证方式来提供反馈。
数学问题:直接校验生成答案的正确性。 代码问题:通过代码执行服务器评估生成的代码是否能通过测试用例。
这种方式更加直接高效,避免了传统奖励模型可能存在的问题,让模型在"做题"中不断进步。
案例实操
说了这么多,下面用一些实际案例来测试一下,能力怎么样。
问题1:冰箱里面有十个鸡蛋,我敲了两个,煎了两个,吃了两个,还剩几个?
先来一个逻辑推理,这个问题看着很简单,但容易踩坑,现在还有好多大模型都会回答错。
正确答案应该就是 8 个,因为敲、煎、吃,其实针对的是同一批鸡蛋。
问题2:6.9 和 6.11 哪个更大。
这是一个比较经典的问题,看似非常简单,但很多大模型确实会分不清。QwQ-32B 还考虑了多种情况,除了数字比较,还进行了版本号比较。
再来一个经典的鸡兔同笼:鸡兔同笼,共35只头,94只脚,问鸡兔各多少?
回答得很快,从两种方式分别给出了答案,并有完整步骤。
问题 4:
请用 Python 语言解决以下问题:
"""
在神秘的地牢中,n 个魔法师站成一排。每个魔法师都拥有一个属性,这个属性可以给你提供能量。有些魔法师可能会给你负能量,即从你身上吸取能量。
你被施加了一种诅咒,当你从魔法师 i 处吸收能量后,你将被立即传送到魔法师 (i + k) 处。这一过程将重复进行,直到你到达一个不存在 (i + k) 的魔法师为止。
换句话说,你将选择一个起点,然后以 k 为间隔跳跃,直到到达魔法师序列的末端,在过程中吸收所有的能量。
给定一个数组 energy 和一个整数k,返回你能获得的 最大 能量。
示例 1:
输入: energy = [5,2,-10,-5,1], k = 3
输出: 3
解释:可以从魔法师 1 开始,吸收能量 2 + 1 = 3。
示例 2:
输入: energy = [-2,-3,-1], k = 2
输出: -1
解释:可以从魔法师 2 开始,吸收能量 -1。
提示:
1 <= energy.length <= 105
-1000 <= energy[i] <= 1000
1 <= k <= energy.length - 1
"""
下面请补全如下代码解决该问题
class Solution:
def findPermutationDifference(self, s: str, t: str) -> int:
这是一个难度为中等困难的算法题,思考得还挺快的,没一会就给出了答案。
经过验证,一次就通过了。
总结
实际体验下来,感受非常好,我这边文章就是用 QWQ 辅助撰写的。
接下来的一段时间,应该都会替代 DeepSeek 作为我的主力军。
更重要的是,QwQ-32B 的部署成本更低。由于参数量小,它对硬件的要求更低,完全可以在单机上高效运行,大大降低了推理部署的门槛。
感兴趣的可以直接冲,地址都在这里了:
Qwen Chat 官网直接体验:https://chat.qwen.ai/ Hugging Face:https://huggingface.co/Qwen/QwQ-32B
我是艾康,会持续分享更多好用实用的 AI 工具/AI 玩法,如果想第一时间收到推送,欢迎关注公众号,并设为星标⭐。
扫描下方二维码,备注「777」,免费送你一份《AI工具与副业变现指南》。
如果觉得这篇文章有用的话,感谢点赞、在看➕关注👆,我是艾康,咱们下篇见!
没有评论:
发表评论