自主拆解任务、调用工具、完成闭环
最近AI界大火的应该算是 AI coding了吧,国内大模型领域各家也都陆续推出了对标claude-4-sonnet的coding大模型。比如之前提到的 qwen3-coder、kimi k2等,笔者也第一时间做了测试,效果也还可以,虽然不能完全超越claude-4-sonnet,但是还是可以提升不少工作效率。
今天再给大家介绍一个agentic coding大模型,智谱刚发布的glm-4.5 。根据官方公布的性能评估,glm-4.5在涵盖研究生水平推理和复杂软件工程解题等12项全球公认的硬核测试中,综合得分位列全球第三,在所有国产模型和开源模型中排名首位。
经过笔者亲测,效果比之前测试的其他国产模型丝滑很多,废话不多说直接上干货。老规矩不喜欢看介绍的直接跳到,【实践测试】环节。
综合性能SOTA
GLM-4.5和GLM-4.5-Air的主要特点:
训练流程:
两者采用相似训练流程,先在15万亿令牌的通用数据上进行预训练 随后在代码、推理、智能体等领域进行针对性训练 最后通过强化学习进一步增强推理、代码与智能体能力
优化领域与应用:
在工具调用、网页浏览、软件工程、前端编程领域进行了优化 可接入Claude Code、Roo Code等代码智能体平台 通过工具调用接口支持各类智能体应用开发
这两个模型展现出在专业领域的深度优化和应用灵活性,能够满足多种复杂场景的需求
总体性能
GLM-4.5 模型的参数量仅为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,却能在多项标准基准测试中表现得更为出色,这归功于GLM模型更高的参数效率。在涵盖智能体(3 项)、推理(7 项)和编程(2 项)的 12 个基准测试上将 GLM-4.5 与来自 OpenAI、Anthropic、Google DeepMind、xAI、阿里巴巴、月之暗面和深度求索的各种模型进行了比较。总体而言,GLM-4.5 排名第 3,GLM-4.5 Air 排名第 6。
在 SWE-Bench Verified 等评测图谱中,GLM-4.5 系列位于性能/参数比帕累托前沿,这表明在相同规模下,GLM-4.5 系列实现了最佳性能表现。
体验优化:低成本、高速度
在性能优化之外,GLM-4.5 系列也在成本和效率上实现突破,由此带来远低于主流模型定价:API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens,
同时,高速版本实测生成速度超过 100 tokens/秒,支持低延迟、高并发的实际部署需求,兼顾成本效益与交互体验。
实践测试
光靠ppt没太有说服性,我们使用glm-4.5实战一下,哈哈。上篇文章我们刚刚在claude code 中使用了国产模型 kimi k2,这次我们依旧使用最流行的claude code 集成 glm-4.5进行测试
一、首先配置 claude code
1、获取 glm-4.5 apikey
前往智谱开放平台获取 API Key
https://open.bigmodel.cn/usercenter/proj-mgmt/apikeys
2、配置claude code
export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic
export ANTHROPIC_AUTH_TOKEN="your bigmodel API keys"
3、启动使用
claude
出现如下界面就是成功配置为glm-4.5了
二、测试code能力
笔者工作中使用场景最多的就是coding,所笔者从这个方面做一些测试
1、赛车游戏
提示词:帮我桌面上创建一个test1.py文件,帮我写一个赛车过障碍的游戏,
要求有三条赛道,基于python html 和 css,这启动python程序可以启动
游戏
一气呵成,我没有做任何二次修改,直接出结果,最终给我在桌面上创建了一个test.py 和 index.html 文件,我直接启动test1.py
python test1.py
浏览器输入 http://localhost:8000/
完全符合要求,而且可以玩,最主要的是他可以自主穿件文件,把代码写入,不需要我再去复制代码了,具体代码我放在文末
2、使用第三方包作图
笔者工作中有大量作图的需求,这里让glm-4.5帮我做一下图表
提示词:基于pyecharts 帮我写一个图表demo,我需要在一个图上展示柱状图和折线图,
柱状图使用左边的轴做y轴,折线图使用右边的,同时帮我生成一些测试数据,
代码写入 test2.py中
so 快呀
from pyecharts import options as opts
from pyecharts.charts import Bar, Line, Grid
import random
# 生成测试数据
months = ['1月', '2月', '3月', '4月', '5月', '6月', '7月', '8月', '9月', '10月', '11月', '12月']
sales_data = [random.randint(100, 500) for _ in range(12)] # 销售额数据
profit_rate = [round(random.uniform(5, 25), 1) for _ in range(12)] # 利润率数据
# 创建柱状图(销售额)
bar = (
Bar()
.add_xaxis(months)
.add_yaxis(
"销售额(万元)",
sales_data,
label_opts=opts.LabelOpts(position="top"),
itemstyle_opts=opts.ItemStyleOpts(color="#5470C6")
)
.set_global_opts(
title_opts=opts.TitleOpts(title="2024年销售数据分析", subtitle="柱状图显示销售额,折线图显示利润率"),
tooltip_opts=opts.TooltipOpts(trigger="axis", axis_pointer_type="cross"),
legend_opts=opts.LegendOpts(pos_top="8%"),
xaxis_opts=opts.AxisOpts(type_="category", boundary_gap=False),
yaxis_opts=opts.AxisOpts(
type_="value",
name="销售额",
position="left",
axislabel_opts=opts.LabelOpts(formatter="{value} 万元")
)
)
)
# 创建折线图(利润率)
line = (
Line()
.add_xaxis(months)
.add_yaxis(
"利润率(%)",
profit_rate,
yaxis_index=1, # 使用右侧y轴
label_opts=opts.LabelOpts(is_show=False),
symbol_size=8,
linestyle_opts=opts.LineStyleOpts(width=3, color="#91CC75"),
itemstyle_opts=opts.ItemStyleOpts(color="#91CC75")
)
.set_global_opts(
yaxis_opts=opts.AxisOpts(
type_="value",
name="利润率",
position="right",
axislabel_opts=opts.LabelOpts(formatter="{value}%")
)
)
)
# 组合图表
grid = (
Grid(init_opts=opts.InitOpts(width="1000px", height="600px"))
.add(bar, grid_opts=opts.GridOpts(pos_bottom="20%"))
.add(line, grid_opts=opts.GridOpts(pos_bottom="20%"))
)
# 生成HTML文件
grid.render("sales_analysis.html")
print("图表已生成: sales_analysis.html")
print("\n数据预览:")
print("月份:", months)
print("销售额:", sales_data)
print("利润率:", profit_rate)
# 如果要在Jupyter Notebook中显示,可以使用下面的代码
# grid.render_notebook()
这直接执行看效果,一句未改
python3 test2.py
3、物理测试
提示词:帮我生成一个小球在一个正六边形中滚动的演示画面,需要符合物理
定律基于python和html,滚动要自然
这次不仅帮我生成了代码,连依赖包requirements.txt 文件也一并生成了
看看效果
不但基础效果有了,还给了参数设置,生成效果真的很nice
具体代码我放在文末
4、做一个3d公园项目(为了演示不同平台效果,这次使用mac测试)
这次搞个大的可以交互的公园浏览项目
提示词:基于python html js css 帮我写一个公园3D浏览网站,虚拟一
个公园出来,我在公园中游览,需要可以交互,注意3d渲染要优化一下,不要
太慢,整体项目形式,注意不同文件放入不同文件夹,使用python作为入口启
动文件
来看看执行流程
整体流程很丝滑,将任务分解后,顺序执行每一步,中间建立文件夹和付权限需要你的授权,也可以授权自动执行,看一下项目目录
启动起来看看效果:
python server.py
没有评论:
发表评论