2025年7月31日星期四

GLM-4。5 发布:面向推理、代码与 Agentic 的开源 SOTA 模型,实测记录coding能力,程序员还有福利

自主拆解任务、调用工具、完成闭环

图片

     最近AI界大火的应该算是 AI coding了吧,国内大模型领域各家也都陆续推出了对标claude-4-sonnet的coding大模型。比如之前提到的 qwen3-coder、kimi k2等,笔者也第一时间做了测试,效果也还可以,虽然不能完全超越claude-4-sonnet,但是还是可以提升不少工作效率。

今天再给大家介绍一个agentic coding大模型,智谱刚发布的glm-4.5 。根据官方公布的性能评估,glm-4.5在涵盖研究生水平推理和复杂软件工程解题等12项全球公认的硬核测试中,综合得分位列全球第三,在所有国产模型和开源模型中排名首位。

经过笔者亲测,效果比之前测试的其他国产模型丝滑很多,废话不多说直接上干货。老规矩不喜欢看介绍的直接跳到,【实践测试】环节。


综合性能SOTA


      智谱在他们的技术博客中表示,现有模型有些擅长编程,有些精于数学,有些在推理方面表现出色,但没有一个能在所有任务上都达到最佳表现。GLM-4.5 正是朝着统一各种能力这一目标努力,力求在一个模型中集成所有这些不同的能力。

GLM-4.5和GLM-4.5-Air的主要特点:

训练流程

  • 两者采用相似训练流程,先在15万亿令牌的通用数据上进行预训练
  • 随后在代码、推理、智能体等领域进行针对性训练
  • 最后通过强化学习进一步增强推理、代码与智能体能力

优化领域与应用

  • 在工具调用、网页浏览、软件工程、前端编程领域进行了优化
  • 可接入Claude Code、Roo Code等代码智能体平台
  • 通过工具调用接口支持各类智能体应用开发

这两个模型展现出在专业领域的深度优化和应用灵活性,能够满足多种复杂场景的需求


总体性能

       GLM-4.5 模型的参数量仅为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,却能在多项标准基准测试中表现得更为出色,这归功于GLM模型更高的参数效率。在涵盖智能体(3 项)、推理(7 项)和编程(2 项)的 12 个基准测试上将 GLM-4.5 与来自 OpenAI、Anthropic、Google DeepMind、xAI、阿里巴巴、月之暗面和深度求索的各种模型进行了比较。总体而言,GLM-4.5 排名第 3,GLM-4.5 Air 排名第 6。

图片

    在 SWE-Bench Verified 等评测图谱中,GLM-4.5 系列位于性能/参数比帕累托前沿,这表明在相同规模下,GLM-4.5 系列实现了最佳性能表现。

图片

体验优化:低成本、高速度


在性能优化之外,GLM-4.5 系列也在成本和效率上实现突破,由此带来远低于主流模型定价:API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens

同时,高速版本实测生成速度超过 100 tokens/秒,支持低延迟、高并发的实际部署需求,兼顾成本效益与交互体验。

图片


实践测试


     光靠ppt没太有说服性,我们使用glm-4.5实战一下,哈哈。上篇文章我们刚刚在claude code 中使用了国产模型 kimi k2,这次我们依旧使用最流行的claude code 集成 glm-4.5进行测试


一、首先配置 claude code 

1、获取 glm-4.5 apikey

  前往智谱开放平台获取 API Key

https://open.bigmodel.cn/usercenter/proj-mgmt/apikeys

2、配置claude code 

export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropicexport ANTHROPIC_AUTH_TOKEN="your bigmodel API keys"

3、启动使用

claude

出现如下界面就是成功配置为glm-4.5了

图片

二、测试code能力

笔者工作中使用场景最多的就是coding,所笔者从这个方面做一些测试

1、赛车游戏

提示词:帮我桌面上创建一个test1.py文件,帮我写一个赛车过障碍的游戏,要求有三条赛道,基于python html 和 css,这启动python程序可以启动游戏
图片

一气呵成,我没有做任何二次修改,直接出结果,最终给我在桌面上创建了一个test.py 和 index.html 文件,我直接启动test1.py

python test1.py

浏览器输入 http://localhost:8000/

图片

完全符合要求,而且可以玩,最主要的是他可以自主穿件文件,把代码写入,不需要我再去复制代码了,具体代码我放在文末


2、使用第三方包作图


笔者工作中有大量作图的需求,这里让glm-4.5帮我做一下图表

提示词:基于pyecharts 帮我写一个图表demo,我需要在一个图上展示柱状图和折线图,柱状图使用左边的轴做y轴,折线图使用右边的,同时帮我生成一些测试数据,代码写入 test2.py中
图片

so 快呀

from pyecharts import options as optsfrom pyecharts.charts import Bar, Line, Gridimport random
# 生成测试数据months = ['1月''2月''3月''4月''5月''6月''7月''8月''9月''10月''11月''12月']sales_data = [random.randint(100500for _ in range(12)]  # 销售额数据profit_rate = [round(random.uniform(525), 1for _ in range(12)]  # 利润率数据
# 创建柱状图(销售额)bar = (    Bar()    .add_xaxis(months)    .add_yaxis(        "销售额(万元)"        sales_data,        label_opts=opts.LabelOpts(position="top"),        itemstyle_opts=opts.ItemStyleOpts(color="#5470C6")    )    .set_global_opts(        title_opts=opts.TitleOpts(title="2024年销售数据分析", subtitle="柱状图显示销售额,折线图显示利润率"),        tooltip_opts=opts.TooltipOpts(trigger="axis", axis_pointer_type="cross"),        legend_opts=opts.LegendOpts(pos_top="8%"),        xaxis_opts=opts.AxisOpts(type_="category", boundary_gap=False),        yaxis_opts=opts.AxisOpts(            type_="value",            name="销售额",            position="left",            axislabel_opts=opts.LabelOpts(formatter="{value} 万元")        )    ))
# 创建折线图(利润率)line = (    Line()    .add_xaxis(months)    .add_yaxis(        "利润率(%)"        profit_rate,        yaxis_index=1,  # 使用右侧y轴        label_opts=opts.LabelOpts(is_show=False),        symbol_size=8,        linestyle_opts=opts.LineStyleOpts(width=3, color="#91CC75"),        itemstyle_opts=opts.ItemStyleOpts(color="#91CC75")    )    .set_global_opts(        yaxis_opts=opts.AxisOpts(            type_="value",            name="利润率",            position="right",            axislabel_opts=opts.LabelOpts(formatter="{value}%")        )    ))
# 组合图表grid = (    Grid(init_opts=opts.InitOpts(width="1000px", height="600px"))    .add(bar, grid_opts=opts.GridOpts(pos_bottom="20%"))    .add(line, grid_opts=opts.GridOpts(pos_bottom="20%")))
# 生成HTML文件grid.render("sales_analysis.html")
print("图表已生成: sales_analysis.html")print("\n数据预览:")print("月份:", months)print("销售额:", sales_data)print("利润率:", profit_rate)
# 如果要在Jupyter Notebook中显示,可以使用下面的代码# grid.render_notebook()

这直接执行看效果,一句未改

python3 test2.py
图片
图表效果,完全符合我的描述,我只需要替换我的数据即可
图片

3、物理测试


提示词:帮我生成一个小球在一个正六边形中滚动的演示画面,需要符合物理定律基于python和html,滚动要自然

这次不仅帮我生成了代码,连依赖包requirements.txt 文件也一并生成了

图片

看看效果


不但基础效果有了,还给了参数设置,生成效果真的很nice

图片


具体代码我放在文末


4、做一个3d公园项目(为了演示不同平台效果,这次使用mac测试)


    这次搞个大的可以交互的公园浏览项目

提示词:基于python html js css 帮我写一个公园3D浏览网站,虚拟一个公园出来,我在公园中游览,需要可以交互,注意3d渲染要优化一下,不要太慢,整体项目形式,注意不同文件放入不同文件夹,使用python作为入口启动文件

来看看执行流程

图片
图片
图片
图片

整体流程很丝滑,将任务分解后,顺序执行每一步,中间建立文件夹和付权限需要你的授权,也可以授权自动执行,看一下项目目录

图片


启动起来看看效果:

python server.py

使用键盘鼠标交互


     这里我使用kimi k2也做了一个相同的,大家可以对比一下,提示词一模一样,效果如下:



      

    从效果来看,glm4.5生成的更丝滑一些,而且画面比较丰富,还有些许动画,因为我本机硬件比较low,所以提示词里说了优化一下3d渲染。从这方面来看,glm-4.5对题词的理解更好一些,而且使用过程的输出提示都是中文提示,易于理解,在使用k2时过程输出的是英文,对我这英文一般的感觉还是有点吃力,整体感觉glm-4.5更适合国人去平替claude吧,哈哈。


    看到这让我想起了之前有个国外博主做的类似的项目,然后把座椅等公园的场景上打广告,可以变现了,哈哈。现在有了glm-4.5 即使你不是程序员,不是全栈也可以做出自己的项目来了,come on,搞起来吧,此项目源码文末获取。更贴心的是,如果你没有服务器部署,可以使用智谱的一键部署!


整体总结

      

     笔者之前测试过kimi k2 和qwen3-coder 生成过程中,还是需要一些二次修改,这次测试的glm-4.5确实出处笔者意料,很丝滑呀,哈哈,Agentic Coding能力真不是吹的,以后工作中绝对可以平替 claude 系列的模型了,对于没有梯子的伙伴们,这绝对是个福音!

      目前智谱推出了程序员优惠活动,50块就能包月爽用GLM-4.5,调用量无上限,有需要的可以关注一下!

图片



#大模型#智谱#glm-4.5#glm


需要笔者测试代码的后台回复【glm4.5】可得


对工作流和大模型感兴趣的可以进群交流,已在群的就不要进了,我会定时清理
图片

没有评论:

发表评论

Windows MCP,开源了!

在大语言模型最初诞生之际,在大多数人看来,它就像个没有肢体,只会说话的大脑。但 MCP 到来后,一切便发生了翻天覆地的变化。 MCP 通过指定协议,为 LLM 装上了四肢,让它除了能够主动思考之外,还能与各种网页、本地文件进行更深层的互动,执行一些更复杂的操作。 在 MCP ...