2025年4月15日星期二

智谱发布最快的推理模型!效果媲美 DeepSeek R1,速度吊打,快 8 倍!

从 GPT-4o & o1 到Claude3.5 & 3.7,再到 DeepSeek-V3 & R1,大家都在卷智商,卷大参数。

但今天智谱AI给我们带来了一个全新的方向:在卷智商的同时,我们也需要把反应速度卷起来!

这里先问大家一个问题,有没有觉得在试用各大厂商的推理模型时候,看着他们一个字一个字的往外蹦,实在是太慢了,导致很多时候不太愿意用。

这次,智谱团队带着全新的AI"三板斧"来了,是大家用得起的"斧",也是一把小巧的"斧",更是是一把非常锋利的"斧":

  • GLM-4(基座通用):9B的对话模型和32B的基础模型

  • GLM-Z1-Air(极速推理):9B和32B的推理模型

  • GLM-Z1-Rumination(深度沉思):32B的沉思模型

此外,顶级域名"z.ai"也正式上线,目前z.ai集合了沉思模型、推理模型、对话模型。

智谱MaaS平台:https://bigmodel.cn

Z.ai:https://chat.z.ai

开源地址:https://huggingface.co/THUDM

模型解读:智谱三大重磅产品上线

1. GLM-4-Air-0414(基座模型)

这次的基座模型仅仅只有32B,相比DeepSeek-R1上千亿的模型来说轻便太多了。

当然,在轻便小巧的同时,它还不丢失强大的性能以及丰富的功能。

因为Air模型在训练时加入了代码、推理类数据,也支持多语言工具调用、联网搜索等 Agent 功能。此外,z还有一大亮点,在Z.ai平台上它支持实时预览 HTML/CSS/JS 代码运行结果(像调 IDE 一样对话调代码)

比如:

设计一个支持自定义函数绘制的绘图板,可以添加和删除自定义函数,并为函数指定颜色。

在各项基准测试,比肩各大厂商的大参数模型。

2. GLM-Z1-Air(推理模型)

在32B的GLM-4-Air-0414的基础上,他们引入了更多推理类数据,并在对齐阶段深度优化了通用能力,推出了全新的深度思考模型 GLM-Z1-Air,以及变种版本 GLM-Z1-AirX 和 GLM-Z1-Flash

在多项基准测试上,媲美OpenAI-o1mini以及DeepSeek-R1。API调用价格也是R1模型的 1/30,可以说是性价比之王了。

但是重点来了,极速版 GLM-Z1-AirX 是国内速度天花板!!!

有8倍推理速度,最高达到 200 tokens/秒!!!

可能大家对这个没有什么概念,一起来看一段对比视频感受一下。

结果非常明显,在双方都获得正确答案同时,AirX是快了不少的。

我仔细研究过后,发现他们采用了冷启动与扩展强化学习策略,并针对数学、代码、逻辑等关键任务进行了深度优化训练。

最后,GLM-Z1-Flash也是唯一免费API调用的推理模型。

智谱团队真的是费劲心思,让大家体验到AI的红利啊。

也许会有网友质疑到,为啥需要这么快的模型,只要卷智商不就可以了。

这里我也是思考了一下这个问题。高速推理的模型更加适用家用和商业机器人大脑,以及自动驾驶的快速决策,因为这两个场景对于速度上有着极高的要求。

如果觉得32B还是太大,智谱团队还温馨的提供了9B版本的方便大家,在自己的电脑上试用,然而性能还是意外的强。

3. GLM-Z1-Rumination(沉思模型)

当我们以为推理模型可能,到了AI发展的阶段性顶部的时候,他们又推出了沉思模型 GLM-Z1-Rumination,也是首个开源Deep Research的模型。

大家可能对这个概念不是很了解。比如R1的模型是可以反复推理以及思考确定性的答案,例如:数学题。

但是沉思模型擅长回答开放性以及不确定性的问题,这些问题需要我们人类反复思考斟酌, 甚至要上网查一百个资料、搜索数据库……至少花上半天的时间才能完成。

这些问题通通被沉思模型在几分钟内解决。

再来个具象化的类比:

  • 搜索模型:本科生
  • 反思模型:硕士
  • 沉思模型:博士

一句话概括此模型的能力就是:自主提出问题—搜索信息—构建分析—完成任务,非常适合研究型写作和复杂检索任务。

官方推荐配置:

  • 32B:1 张 H100 / A100 或者更先进的NVIDIA旗舰显卡

  • 或者 4 张 4090 / 5090 / 3090

我的实战测评

  1. GLM-Z1-Air VS DeepSeek R1:速度测试

这里我问了一个有些难度的数学问题,非常考验模型推理能力+数学知识。

求所有满足下式存在正整数 (x, y) 的素数 (p): [ x(y^2-p) + y(x^2-p) = 5p. ]

先说结论,在答案都对的情况下,GLM-Z1-AirX用时2分钟,然而DeepSeek-R1用时4分钟,快了一倍。这个速度还是很夸张的。

GLM-Z1-Air回答:

DeepSeek-R1回答:

  1. 沉思模型测试

这里我想让它帮我做一个综述初稿。

中低资源语言的机器翻译有哪些最新方法: 上网查学术资料(如ACL Anthology、arXiv), 汇总不同方法的优劣, 按照年份、语言类别等进行分类, 甚至尝试写个 survey 初稿.

我们可以看到,它先采用思考方式发出提问,然后进行网络搜索,最后收集资料,再进行新的一轮,直到任务结束。

在我去客厅做杯咖啡的时间,它就把综述呈现给我了,如果让我亲自来做估计得好几天。

最后,如下图所示,把段落重点都写的非常清晰,最后还带上了参考文献,真的是省时又省力。

最后一件事

顶级域名Z.ai也上线了。其中支持模型有:

  • GLM-4-32B(基座模型):具备强大代码生成能力,支持全新 Artifacts 功能,打造交互式开发体 验。

  • Z1-32B(推理模型):超强推理性能,在线体验最高达 200 Tokens/秒 的极速输出。

  • Z1-Rumination-32B(沉思模型):可以体验 Deep Research 的强大能力,适合做深度调研。

最后一句话

智谱这次"三板斧"的发布,也是加速了国产大模型生态的发展。其深度思考模型弥补了国产生态上长期缺失的一环——"思考+执行"的闭环。

更加是奠定了大模型接下来的发展趋势-小而精

随着 Z.ai 正式开放、MaaS 平台上线、模型全量开源,会不会迸发出新的一波AI应用热潮呢。

大家可以在评论区讨论一下自己的使用体验。

如果喜欢这样的内容,请点赞+关注,我会持续为大家追踪最新热点。我是Jack,我们下期再见。

·················END·················

没有评论:

发表评论

最近 2 个好玩的 GitHub 项目,太优质了。

01 AI 语音笔记助手 这个叫 Hyprnote 的开源项目就是 你的私人会议助手 ,能让帮你在 120 分钟的会议中,快速找到那 10 分钟你需要关注的信息。 开会从容,执行不迫。 开源地址: https : //github.com/fastrepl/hyprnote ...