2026年5月23日星期六

GLM-5。1高速版实测:每秒400 token,旗舰性能推理加速5-6倍

智谱推出GLM-5.1-HighSpeed高速版大模型,实测每秒生成400 token,完整保留GLM-5.1旗舰能力。同样指令下响应时间从31秒缩至11秒,生成网页仅40秒,生成Word文件20秒。上下文窗口200K,适合语音Agent等高实时性AI产品。

Tags:

GLM-5.1-HighSpeed 来了,每秒 400 token。
很快的同时还很强,太顶了。。。一手测评,先来看看效果。
我在 Claude Code 里面配置了 GLM-5.1 和 GLM-5.1-HighSpeed。
先从体感上感受一下两个模型的速度。
GLM-5.1:
我发了两个指令,从发出去到回复大概需要 31 秒。

GLM-5.1-HighSpeed:
同样的两个指令,发出去才 11 秒。

Claude Opus 4.7:
可能也有网络的原因,Opus 4.7 大概是 47 秒。

再来看 GLM-5.1-HighSpeed 的几个效果,没有快放。
让 GLM-5.1-HighSpeed 生成网页,40s 搞定:

再来看一个生成 Word 文件的,20 秒搞定:

GLM-5.1 高速版打破行业惯例,之前大家的认知一般是尺寸小的模型才能快。

小模型的问题就是会降智。

但是 GLM-5.1 高速版背后是智谱旗舰模型 GLM-5.1,这国产大模型第一次同时拿到顶级的智商和极致的速度。

可惜的一点是 GLM-5.1-HighSpeed 的上下文窗口还是 200K。
期待 1M 的版本啊。

01

效果如何?

从模型智能上,GLM-5.1 高速版完整保留 GLM-5.1 能力。

图片
我来试几个 case,看看 GLM-5.1 高速版是什么情况。
生成一个我的世界游戏
提示词:帮我生成一个3d的游戏,类似我的世界。 我能直接在网页中玩 。

写完直接完,没有任何报错。
上面那个提示词输入后,先用  superpowers 的 brainstorming 头脑风暴了一下,和 AI 聊了几轮收敛我的需求,然后它写 Spec 文档,再写计划文档。
最后拆了 10 个子任务,派 SubAgent 来逐个实现,最终完成整个 MVP 版本。
图片
如果之前用 GLM-5.1 或者 Opus 4.7 ,这一套下来,至少 1 ~2 个小时,现在只需要 11 分钟结束了。
而且质量也能保证。
图片
而且前置头脑风暴的追问和澄清是一个连一个,我根本反应不过来,太快了。。。。
对于我这种深度使用 Claude Code 的人,这个体验和感受太震撼了。
另外我自己测了几个简单的 Case,大家可以参考,主要是对于 GLM-5.1 的,看看速度提升了,模型能力有没有变拉跨?
网站生成:与 GLM 5.1 对比
同样的提示词,同样的环境只是模型不一样。
提示词:基于桌面上的个人介绍文件, 生成一个个人介绍的网站, 风格使用 Awesome Design 里面的 Claude 的风格, 不需要头脑风暴,直接来吧. 
GLM-5.1:

GLM-5.1-HighSpeed:

体感上,确实 GLM-5.1-HighSpeed 效果稍好一些。
而且比 GLM-5.1 快了 5~6 倍。
我把它俩生成的内容,丢个 Claude Ops 4.7,让它给两个模型的输出打打分。
最终结论是 GLM-5.1-HighSpeed 交付结果更好。
图片
办公场景

提示词:读取桌面上的测试文件中的两个文件,一个是月报 word 模板,一个是近期用户投诉梳理表格. 请你从投诉数据中找出重复投诉,分析一下相关问题,基于 word 模板写一个月报总结.

同样的把交付的结果让 Claude Opus 4.7 来评判下。

图片

02

为什么这么快?

GLM-5.1 高速版由智谱 GLM 团队和 TileRT 团队联合打造,在三个层面同时做了优化:

推理引擎层:针对 GLM-5.1 的架构特点重写了核心推理路径,提升单卡吞吐能力。

调度系统层:动态批处理、请求合并、KV 缓存调度优化,高并发场景下的尾延迟显著下降。

基础设施层:推理集群部署、网络链路、负载均衡的协同优化,保证 400 TPS 不是峰值数字,而是稳定的生产可用水平。

但最核心的创新在 TileRT 推理引擎本身。

模型推理速度的上限由硬件决定,但真实系统往往远未兑现这个上限。

以 8 卡 H200 服务器为例,聚合内存带宽约 38TB/s,理论上 decode 速度上限接近 1000 token/s,但实际推理服务中通常只能跑出几十 token/s。

问题出在推理框架的调度方式。

主流框架以 operator/kernel 为基本调度单元,每个算子都要走完一套完整的启动→读权重→计算→写回→同步流程。

当推理进入单 token、小 batch、多卡场景,算子被切到微秒级,原本可以忽略的调度、访存与同步开销被急剧放大。

GPU 不是没有算力,而是算力被困在了 kernel 边界之间。

operator/kernel 这一执行抽象,本身已经成为阻碍推理逼近硬件上限的结构性瓶颈。

TileRT 的做法是彻底抛弃 Runtime 层的动态调度,在编译期把整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel。

Tile-level Task Scheduling:算子被拆解为 tile-level task,调度到 warp group 上,CTA 通过 warp/block specialization 形成异构 worker。

单卡之内,计算、异步 IO 与通信被拆解为 Tile 级微任务,整个推理过程只 Launch 一次,算子间的中间结果不再写回 Global Memory,而是经由 Register、Shared Memory 与 L2 Cache 直传。

多卡场景下,不同 GPU 不再执行同构逻辑,而是按计算密度与数据依赖被特化为不同 worker。

以 GLM-5.1 为例,GPU 0 专职 Sparse Indexer,GPU 1–7 承担 MLA 注意力主干,跨卡的广播、归约与残差加被压缩进同一个通信原语。

最终,推理的调度单元从 operator/kernel 降维到了 tile。

03

利好响应速度要求高的 AI 产品

如果模型的智能不衰减,响应速度大幅提升。
很多产品的体验能提升一个量级。
比如我最近开源了一个语音优先的 Agent:Lumi,可以通过唤醒词唤醒住在你电脑的 Agent,直接语音告诉它要做啥,它做完也会语音回复你。
图片
开源地址:https://github.com/Wechat-ggGitHub/Lumi
比如我说:钱多多,请你帮我把桌面上的文件整理一下。
其实这个任务,真实大概需要五六分钟才能完成。
下面这个视频做了倍速。

你看,等干完活,语音播报反馈给用户:主人,我帮你整理好了。可能 5 分钟后用户早忘了这茬了。
从体感上,这句任务完成的语音回复不是惊喜而是惊吓了。 突然冷不丁的冒出来一句,挺不友好的。
但是如果模型推理速度超快,Agent 调用的链路足够高效的话,配合一些产品细节的打磨,这种场景的用户体验就会大幅提升的。
至少从我最近 Vibe Coding 开发 Lumi 的感受上来讲,速度是影响用户体验非常重要的一环。
相信后续很多对时延要求很高的 AI 产品都会选择 GLM-5.1-HighSpeed 做为底模。

04

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

没有评论:

发表评论

OpenAI联手Google推出AI图片检测工具 无需登录免费使用

OpenAI与Google合作推出AI图片检测工具,基于C2PA元数据和SynthID水印技术,可识别AI生成图片。无需登录即可使用,支持截图、微信保存、局部裁剪后仍能检测。目前支持OpenAI自家图片,未来将扩展跨行业验证。适合关注内容溯源、防范AI假图的普通用户。 Tags:...