GLM-5.1-Turbo 在长程任务中表现优异,SWE Bench 等榜单开源第一。配合 Superpowers 插件,可自主完成从头脑风暴到代码交付的全流程,实测开发 46 文件/5258 行笔记工具仅 1 小时。面向 AI 编程开发者,新用户通过智谱 Coding Plan 下单立减 5%,每天早上 10 点限量开抢。
Tags:
看了一下 Artifical Analysis、SWE Bench 这些核心榜单,目前 GLM-5.1 是开源第一。
而且 GLM-5.1 + Superpowers 插件绝配。
想体验的可以看看智谱 Coding Plan,如果你是新用户,下单立减 5% 金额。不过现在得抢了,每天早上 10 点。
链接:https://www.bigmodel.cn/glm-coding?ic=UX7NF0VZ4S我在 Claude Code 中跑了三个不同类型的任务,每一个都涉及多步骤、长链路、持续执行。
它从第一步到最后一步,GLM-5.1 全程没有跑偏。
从 0 开发一个支持 Web 和 CLI 的笔记工具
这几天用起来,Superpowers 开源神器 + GLM-5.1 从 0 到 1 开发应用真的太顶了。
比如我先使用 brainstorming 进行前置讨论,确定需求范围、技术选型、实现方式等一系列重要的事儿。
前置的讨论非常重要,一定不要略过。
① 前置头脑风暴
我输入:从零开发一个类似 memo 的本地笔记工具,支持 Web 端笔记创建、编辑、删除、搜索。同时提供 CLI 命令可以在终端里面操作笔记。
支持标签系统,数据保存到本地。
④ 体验一下
加上前面的头脑风暴一共 1h。
这个 46 个文件,5258 行代码的 memo 小工具就做好了。
一次验证通过。
部署后,所有核心功能都可用。
创建/编辑/删除笔记、标签自动解析、全文搜索、日历视图、CLI 操作等。
CLI 操作支持:
10 万条用户数据做场景分析
这是一个数据分析任务。
这是很多产品、运营、数据同学每日的工作。
我本地有一个 CSV 文件,里面是 10 万条用户的文件名称数据。
任务目标是让 AI 读取这些数据,基于文件名称做用户使用场景分类,然后输出洞察。
这个任务配合 Claude Code 的 Superpowers 插件效果也挺好。
我现在已经把 Superpowers 的头脑风暴模式当成一个大号的 Plan Mode 了。
再做复杂的任务之前,都先和它头脑风暴一下。
它会基于目前的背景不断询问你,然后明确你真实的诉求。
在让我澄清了 5 次,给到我 3 个分类方案后。
它自己去对这 10 条用户数据进行打标,最后交付给我一个非常详细的分析报告。
遇到问题自己处理、不把问题甩给你的行为模式,是长程任务里最稀缺的能力。
我在 GLM-5.1 中看到了。
开源项目 PR/Issues 批量管理
我给它一个开源仓库,让它把所有 Open 的 PR 读一遍,然后给出一个完整的管理方案。
听起来不复杂,但实际操作链路很长:遍历 PR、逐条评估、冲突解决等等,需要输出一份完整的执行计划。
整个任务它自主规划了 40+ 步,持续执行了约 11 分钟,消耗了大概 1800 万 Token。
中间有几个让我印象很深。
它会很仔细,有很多你意想不到的周全。
除了更新功能,它的计划里还有同步更新中文和英文的 ReadMe 文件。
而且最后还会给提 PR 的开发者一个评论反馈,比如:非常感谢您提的 PR,我已经合入之类的。
如果你是 Coding Plan 用户,现在已经在 Claude Code 里面用 GLM 模型了,两个方法:
方法一:手动配置
找到你的 Claude Code 配置文件 ~/.claude/settings.json,把 model 字段改成 glm-5.1,保存即可。
方法二:用 CC Switch 一键切换
CC Switch 是一个开源的桌面端 AI Coding 工具管理器。
能统一管理 Claude Code、Codex、Gemini CLI、OpenCode、OpenClaw 五个工具的 Provider。
直接点击右上 + 号,填写进去你的 Coding Plan 的 API key,和模型名称 glm-5.1 就行了。
另外没买过智谱 Coding Plan 的读者,如果你是新用户,通过下面链接下单立减 5% 金额。每天早上 10 点开始抢:
https://www.bigmodel.cn/glm-coding?ic=UX7NF0VZ4S聊完实测,说说 GLM-5.1 背后的逻辑。
GLM-5.1 是面向长程任务的开源第一模型,用起来媲美 Claude 的 opus模型。
不是通用能力最强,不是单轮问答最准,而是长程任务。
这个方向选得很准。因为 AI Coding 正在经历一条非常清晰的能力跃迁路径:
第一阶段:AI Coding:模型学会写代码,本质上是程序员的效率工具。写个函数、补段逻辑,它是个好用的助手。
第二阶段:Vibe Coding:Coding 从专业行为变成大众表达方式。你不需要理解每一行代码,但可以借助工具把想法快速变成原型。Code is cheap,Idea 的价值开始凸显。
第三阶段:Agentic:AI 不再只是写代码片段,而是能自主理解需求、制定计划、编写代码、测试并迭代修复。像一个初级工程师。
第四阶段:Long Horizon: 真实世界里最有价值的任务,不是一句提示词、一次调用能解决的。
它们需要跨步骤、跨工具、跨时间地持续推进,需要记住上下文,保持目标一致,处理中途的意外并在必要时修正路径。
GLM-5.1 就是冲着第四阶段去的。
再狂烧了几亿 token 后,我在想 AI 时代中,人类更擅长的到底是什么。
之前以为是判断、方向等等一些很虚的东西。
但是 Opus 4.6 和 GLM-5.1 这种模型出来后, 感觉 AI 不仅仅是替代你的手,现在也开始替代你的脑了。
你给它一个目标,它自己拆步骤、自己推进、中间出了问题自己修、最后给你一个完整交付。
而且中间很多判断确实比人力更好。
只要给出它足够的上下文,AI 做的决策一定最优。
06
点击下方卡片,关注逛逛 GitHub
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:
没有评论:
发表评论