智谱AI正式发布GLM-5-Turbo"龙虾模型",针对AI智能体任务优化,实测工具调用更精准,长链路任务更稳定,大幅减少tokens消耗。AutoClaw澳龙工具一键安装,内置50+技能。推出Claw Plan套餐:4000万 tokens月卡39元,1亿 tokens月卡99元,适合AI开发者和企业用户长期使用。
Tags:
最近,小龙虾的热度不减反增。
线上线下的龙虾骗局,各种乱象更是层出不穷。
而全网满屏的内容好像都在告诉你:龙虾来了,不用就落伍了,不部署就掉队了。
整个气氛,简直跟当年 GPT 第一次出圈时一样,各行各业的每个人都怕自己会是最后一个上车,被技术和时代淘汰。
再看最近的风评反转,从刚开始的极度追捧,到现在的猛踩,前后只用了不到一周的时间。
或许一开始,大家只是想知道如何用龙虾帮我干活,帮工作减轻负担。
但现在,OpenClaw 却逐渐引来太多本不属于它的受众。
要知道,OpenClaw 本质就是一个开源项目,开源框架,它都算不上是软件。
可很多普通用户,是直接把它当作软件看待的。
如果放在一年前,你能想象这个场面吗?
一个需要 npm 命令行部署的开源项目,竟然引来毫无编程基础的人在使用。
自己不会安装,甚至还要花 499 元找人上门安装。
造成这种现象的底层原因,我觉得还是源于 AI 焦虑。
大家害怕掉队,更害怕错过 AI 的各种神奇能力。
所以,对于大多数普通用户来说,安心等国内厂家优化好整个流程,打造成成熟软件后再使用,才是正确的选择。
而现在,像 AutoClaw 这种可以一键安装,不用折腾环境配置,上手就能用的龙虾产品,确实是现阶段不错的选择。
要知道,之前OpenClaw被大家吐槽最多的就是,这东西干活不多,但巨巨巨消耗 tokens。
简直跟04年的30元2G的流量套餐一样,加价不加量。
甚至网上还出现了一些"让人破防的顶级思路":
相信用过小龙虾的人,应该早已深有感触:可能只经过一轮对话,就会消耗订阅套餐里的全部 tokens。
比如接个飞书,有时候会莫名其妙重复调用跟他的对话内容,也不知道它在忙什么,做什么,怎么就这么消耗 tokens。
同样的任务,可能是直接用大模型调用消耗 tokens 的几倍,甚至几十倍。
造成这种现象的原因之一,其实是底层大模型,在做重复的工作,做不到指哪打哪,任务拆解的不好,skill 调用的不好,才导致白白浪费了很多 tokens。
而这一块,已经有国内公司在优化了,并且取得了不错的成绩。
比如之前玩过"澳龙" AutoClaw 的小伙伴,应该对 Pony-Alpha-2 这个代号不陌生。
3 月 10 日内测那会儿,不少人看这个名字根都在猜是不是智谱新模型。现在谜底终于揭晓,它就是来自智谱新发布的GLM-5-Turbo。
智谱给它的定位也很直接,叫"全球首个龙虾模型"。
其实这一点也很好理解。传统大模型大多是围绕"对话能力"训练出来的,但真正的龙虾任务,并不是简单的一问一答。
一个完整的 Agent 任务,往往涉及任务理解,步骤拆解,工具调用,状态衔接,持续执行的长链路流程。只要其中任何一步不稳定,整个任务就会掉链子。
这也是为什么智谱把 GLM-5-Turbo 定义成 "龙虾原生模型"——从训练阶段就针对 Agent 的真实工作流进行优化,而不是事后再用框架去补。
官方披露的两个 benchmark 里,它的成绩其实都还不错:一个是第三方的PinchBench,一个是智谱自己做的ClawBench,两个榜单里都拿到了国产模型第一。
其中ClawBench是一个专门针对 Agent 场景设计的测试集,任务内容也比较接近真实工作,比如会议安排、信息调研、代码生成、文件管理等。
主要考察模型在工具调用、指令遵循以及长链路任务执行这些能力上的成功率。
除了 benchmark 之外,还有一个比较有意思的数据:
GLM-5-Turbo 曾以Pony-Alpha-2的代号接入 AutoClaw 澳龙,在用户盲测中,90% 的受访者认为它的表现优于其他国产模型。
当然,榜单和统计数据终究只是参考,真正重要的还是实际体验。
至少从我这几天的使用体感来看,它的表现确实和这些测试结果没有"打架"。
澳龙可以做什么?
在深度体验了搭载 GLM-5-Turbo 模型的澳龙之后,我确实被它的任务完成度和输出质量惊艳到了。
就拿AI 视频生成这件事来说,我可以很直观地展示一下,我是怎么使用澳龙的。
比如,当我想做一个 AI 搞笑短视频时,只需要直接对它说一句:"做一个搞笑、有梗的视频。" 剩下的大部分工作,它就能够继续往下推进。
我当时最想验证的一点是:在GLM-5-Turbo的加持下,澳龙能不能帮我省去每天盯着屏幕"抽卡"、反复修改提示词的时间,让我把精力腾出来,去做更有价值的事情。
于是,我直接给澳龙布置了一个视频生成任务,并提供了一段提示词:
原理讲解:
首先,我为我的澳龙赋予了控制浏览器的能力。我使用的是浏览器控制工具 Chrome DevTools,这样它就可以直接操控浏览器执行操作。不过需要注意的是,浏览器中的网站需要提前完成登录,否则自动化操作无法顺利进行。
为了避免它随意生成视频内容和提示词,我们仍然需要对澳龙生成的视频模板进行一定的限制和规范。
接着,我会给澳龙一个明确的长期指令,例如:"请记住,我近期会持续生成一系列猫狗主题的搞笑博客视频,内容是以猫狗视角吐槽人类。编写短视频提示词时,需要注意分镜设计和时间节奏控制。"这样一来,澳龙在后续生成新内容时会保留这段记忆,从而保持创作方向的一致性,不会轻易偏离主题。
之前我也尝试用其他龙虾和通用模型替换这套工作流,但效果都不太理想:要么视频脚本质量太差,要么是记不住事情;更夸张的是,有的时候还卡在中间工具调用。
实体感觉装上了GLM-5-Turbo后的澳龙,速度提升上来了,tokens 消耗也变少了。大家可以看一看最终的效果。
由此可见,在这种链路很长、步骤很多的任务(比如同时要调用接口、搜索信息,还要控制电脑操作)里,GLM-5-Turbo 的优势其实非常明显。
它能够把一个复杂任务自动拆分成多个子任务,并且为每一步选择合适的工具去执行,有时候甚至真的能做到比较丝滑的"一次跑通"。
简单来说,我在实际使用中最明显感受到的提升,大概有这几方面:
工具调用(Tool Calling):GLM 团队对搜索、文档、接口类工具以及各种 Skills 的调用做过专门优化训练。在复杂任务里,它可以连续、多轮地调用不同工具,而且逻辑非常连贯,不会像以前的模型那样反复"卡壳"。
指令遵循(Instruction Following):它对复杂指令的理解能力明显更强。一个模糊的大任务,它往往能自己拆分成多个清晰的小步骤,然后一步一步执行,甚至调用子龙虾协助完成任务。
定时/持续性任务(Scheduled Tasks):以前很多模型在长链条任务里容易"跑偏"或者中途停住。GLM-5-Turbo 对时间指令和持续任务做了优化,长时间运行复杂流程的时候稳定性更高。
编程(Coding):它继承了 GLM-5 系列本身不错的代码能力。很多需要写脚本、生成页面或者处理数据的任务,它基本可以在很少人工干预的情况下自己完成。
速度(Speed):在长链条任务场景里,速度提升其实是很明显的。模型推理更快、决策更果断,也减少了很多无意义的重复调用。
总结来看,最近 OpenAI 提出的 Harness Engineering 本质上是在强调:Agent 的能力不只是模型能力,而是模型 + 工具 + 执行框架 + 环境的系统工程。
不过很多团队也逐渐意识到一个问题:Harness 再多,如果底层模型能力不够强,复杂任务依然跑不起来。
智谱这次GLM-5-Turbo的思路,其实就是先把 Agent 的"大脑"打磨稳定,再去扩展工具生态。
当然,龙虾饱受诟病的安全问题,智谱这次也没有回避。
针对企业级应用场景,还专门构建了一套安全管理体系"Claw for Enterprise Security",说白了就是让企业能管住自己的龙虾,而不是养了一堆不知道在干什么的黑盒。
具体来讲,主要分为四大点。
首先是管住龙虾的权限,控制每个Claw只能调用被授权的工具,访问允许授权的数据,至于授权范围之外的,它没办法调用。
这套逻辑其实跟公司里 IT 权限管理是同一套思路,大部分企业应该都很熟悉。
然后是过程可见,原来用龙虾最让人抓狂的,是它在干活时,你完全不知道它在调什么,做什么,消耗了多少token。
而现在设置好集中化管控台,claw的每步执行路径和工具调用链路,包括钱包消耗,都可以实时看到。
当然敏感数据全程加密,严格本地化处理,对有合规要求的企业来说,这是硬门槛,不是加分项。
我最想强调的是,是智谱还专门设置了关键动作要人工来把关的节点。
不是所有事都全自动,这一点是真的非常加分,保留人工审批入口,让涉及真正重要的业务决策,还得人来拍板。
这些企业真正在跑 Agent 时会踩的坑,能提前把问题堵住,能看出确实是用了心,而不是纯套壳换皮。
如何使用?
首先,为了获取最佳的体验,我选择的是 AutoGLM 官方发布的澳龙,一键安装,下载桌面版澳龙。
官网地址:
https://autoglm.zhipuai.cn/autoclaw/
选择澳龙的原因非常简单,它免去原生龙虾的复杂配置和安全隐患,又可以避免云龙虾权限太少的问题。
进去之后,建议大家也仔细写一下初始化内容不要跳过,这样可以让使用体验更加贴切你的习惯和生活。
其次,里面内置50+的Agent Skills 能够应付各种场景,从文本创作,代码执行,再到科研研究,投资建议全部拿下。AutoClaw精选内置Skills也防止大家下载到带有病毒的Skills,导致不必要的损失。
我再来一个深度测试,拷打一下我养了几天的澳龙。让他做一下英伟达调研,看看能不能给出我们有建设性的投资建议。
其实,这样的任务非常考验模型的多工具调用能力,也对模型的智力水平有很高要求。它既需要发散思维去搜索多方数据、总结分析,又要完成前端设计,最后还要落地代码实现,确保不出错。从澳龙的回复过程也能看出来,在这种长链条的复杂任务里,它并没有掉链子。
大致生成结果如下。首先,配色和布局都很有条理,也很清晰,不像流水账。之前的模型只会纵向罗列数据,完全没有美感。
再看图标和表格:数据图清晰、干净,配色也很舒服;表格信息更是齐全,把竞争对手对比和服务器各维度指标都梳理得一目了然,甚至给出了威胁等级。
当然,AutoClaw 不是免费的,大模型会消耗积分,而积分是需要购买的,为了测试,我也是提前消费了一波。
智谱也将会在3月22日对龙虾任务推出了Claw Plan这样的套餐。其实原因也很简单——龙虾太能干活了,自然也很"吃 tokens"。
所以对于长期使用龙虾的人来说,tokens 成本很快就会成为一个现实问题。
目前 Claw Plan 提供了不同档位,比如:
4000万 tokens 月卡:39 元
1亿 tokens 月卡:99 元
如果你是经常跑自动化任务或者长期养龙虾的人,这类套餐其实会比零散购买更划算一些。
想要自己搭建Agent的小伙伴,现在智谱团队也已经单独开放官方 API 接入
智谱开放平台:BigModel.cn
Z.ai:api.z.ai
这类澳龙的产品,能够用到的场景还是挺多的。
能快速满足的,是那些传统软件不能解决的问题。
比如每个月的月底,我会专门花费 1 天的时间,整理公司的所有发票,这个过程太折磨了。
现在有了这类软件,就可以随时在聊天软件里丢给它发票,让它自动识别发票信息,并上传到飞书文档等地方,方便月底汇总。
现在这样的工作流,我已经实现了:
再比如,随时跟聊天软件里的机器人说,我今天晚上想看个电影,帮我下载一个电影,放到家里的nas里。
它就能当作家里的智能终端,帮你下载当前最热门的电影放到 nas 里。
总之,从现在往回看,如果说过去一年,大模型主要是在做"效率工具",那么接下来的一段时间,可能会看到越来越多的AI Agent 进入真实工作流。
不只是写文章、做总结,而是真正开始处理邮件、整理文件、调研信息,甚至参与到企业的业务流程里。
像 OpenClaw 这样的框架,以及 GLM-5-Turbo 这种针对 Agent 场景优化的模型,很可能只是一个开始。
如果这篇文章对你有所启发,欢迎点赞、在看,转发三连。星标⭐账号,还可以第一时间收到推送,感谢你的收看,我们下期再见~
没有评论:
发表评论