从 GPT-4o & o1 到Claude3.5 & 3.7，再到 DeepSeek-V3 & R1，大家都在卷智商，卷大参数。

但今天智谱AI给我们带来了一个全新的方向：在卷智商的同时，我们也需要把反应速度卷起来！

这里先问大家一个问题，有没有觉得在试用各大厂商的推理模型时候，看着他们一个字一个字的往外蹦，实在是太慢了，导致很多时候不太愿意用。

这次，智谱团队带着全新的AI"三板斧"来了，是大家用得起的"斧"，也是一把小巧的"斧"，更是是一把非常锋利的"斧"：

GLM-4（基座通用）：9B的对话模型和32B的基础模型
GLM-Z1-Air（极速推理）：9B和32B的推理模型
GLM-Z1-Rumination（深度沉思）：32B的沉思模型

此外，顶级域名"z.ai"也正式上线，目前z.ai集合了沉思模型、推理模型、对话模型。

智谱MaaS平台：https://bigmodel.cn

Z.ai：https://chat.z.ai

开源地址：https://huggingface.co/THUDM

模型解读：智谱三大重磅产品上线

1. GLM-4-Air-0414（基座模型）

这次的基座模型仅仅只有32B，相比DeepSeek-R1上千亿的模型来说轻便太多了。

当然，在轻便小巧的同时，它还不丢失强大的性能以及丰富的功能。

因为Air模型在训练时加入了代码、推理类数据，也支持多语言工具调用、联网搜索等 Agent 功能。此外，z还有一大亮点，在Z.ai平台上它支持实时预览 HTML/CSS/JS 代码运行结果（像调 IDE 一样对话调代码）

比如：

设计一个支持自定义函数绘制的绘图板，可以添加和删除自定义函数，并为函数指定颜色。

在各项基准测试，比肩各大厂商的大参数模型。

2. GLM-Z1-Air（推理模型）

在32B的GLM-4-Air-0414的基础上，他们引入了更多推理类数据，并在对齐阶段深度优化了通用能力，推出了全新的深度思考模型 GLM-Z1-Air，以及变种版本 GLM-Z1-AirX 和 GLM-Z1-Flash。

在多项基准测试上，媲美OpenAI-o1mini以及DeepSeek-R1。API调用价格也是R1模型的 1/30，可以说是性价比之王了。

但是重点来了，极速版 GLM-Z1-AirX 是国内速度天花板！！！

有8倍推理速度，最高达到 200 tokens/秒！！！

可能大家对这个没有什么概念，一起来看一段对比视频感受一下。

结果非常明显，在双方都获得正确答案同时，AirX是快了不少的。

我仔细研究过后，发现他们采用了冷启动与扩展强化学习策略，并针对数学、代码、逻辑等关键任务进行了深度优化训练。

最后，GLM-Z1-Flash也是唯一免费API调用的推理模型。

智谱团队真的是费劲心思，让大家体验到AI的红利啊。

也许会有网友质疑到，为啥需要这么快的模型，只要卷智商不就可以了。

这里我也是思考了一下这个问题。高速推理的模型更加适用家用和商业机器人大脑，以及自动驾驶的快速决策，因为这两个场景对于速度上有着极高的要求。

如果觉得32B还是太大，智谱团队还温馨的提供了9B版本的方便大家，在自己的电脑上试用，然而性能还是意外的强。

3. GLM-Z1-Rumination（沉思模型）

当我们以为推理模型可能，到了AI发展的阶段性顶部的时候，他们又推出了沉思模型 GLM-Z1-Rumination，也是首个开源Deep Research的模型。

大家可能对这个概念不是很了解。比如R1的模型是可以反复推理以及思考确定性的答案，例如：数学题。

但是沉思模型擅长回答开放性以及不确定性的问题，这些问题需要我们人类反复思考斟酌，甚至要上网查一百个资料、搜索数据库……至少花上半天的时间才能完成。

这些问题通通被沉思模型在几分钟内解决。

再来个具象化的类比：

搜索模型：本科生
反思模型：硕士
沉思模型：博士

一句话概括此模型的能力就是：自主提出问题—搜索信息—构建分析—完成任务，非常适合研究型写作和复杂检索任务。

官方推荐配置：

32B：1 张 H100 / A100 或者更先进的NVIDIA旗舰显卡
或者 4 张 4090 / 5090 / 3090

我的实战测评

GLM-Z1-Air VS DeepSeek R1：速度测试

这里我问了一个有些难度的数学问题，非常考验模型推理能力+数学知识。

求所有满足下式存在正整数 (x, y) 的素数 (p)： [ x(y^2-p) + y(x^2-p) = 5p. ]

先说结论，在答案都对的情况下，GLM-Z1-AirX用时2分钟，然而DeepSeek-R1用时4分钟，快了一倍。这个速度还是很夸张的。

GLM-Z1-Air回答：

DeepSeek-R1回答：

沉思模型测试

这里我想让它帮我做一个综述初稿。

中低资源语言的机器翻译有哪些最新方法: 上网查学术资料（如ACL Anthology、arXiv）, 汇总不同方法的优劣, 按照年份、语言类别等进行分类, 甚至尝试写个 survey 初稿.

我们可以看到，它先采用思考方式发出提问，然后进行网络搜索，最后收集资料，再进行新的一轮，直到任务结束。

在我去客厅做杯咖啡的时间，它就把综述呈现给我了，如果让我亲自来做估计得好几天。

最后，如下图所示，把段落重点都写的非常清晰，最后还带上了参考文献，真的是省时又省力。

最后一件事

顶级域名Z.ai也上线了。其中支持模型有：

GLM-4-32B（基座模型）：具备强大代码生成能力，支持全新 Artifacts 功能，打造交互式开发体验。
Z1-32B（推理模型）：超强推理性能，在线体验最高达 200 Tokens/秒的极速输出。
Z1-Rumination-32B（沉思模型）：可以体验 Deep Research 的强大能力，适合做深度调研。

最后一句话

智谱这次"三板斧"的发布，也是加速了国产大模型生态的发展。其深度思考模型弥补了国产生态上长期缺失的一环——"思考+执行"的闭环。

更加是奠定了大模型接下来的发展趋势-小而精

随着 Z.ai 正式开放、MaaS 平台上线、模型全量开源，会不会迸发出新的一波AI应用热潮呢。

大家可以在评论区讨论一下自己的使用体验。

如果喜欢这样的内容，请点赞+关注，我会持续为大家追踪最新热点。我是Jack，我们下期再见。

·················END·················

AI I024

2025年4月15日星期二

智谱发布最快的推理模型！效果媲美 DeepSeek R1，速度吊打，快 8 倍！