在 2025 年 7 月28日,智谱正式推出 GLM‑4.5 系列大模型,这是继 GLM‑4 系列之后的又一次
在 2025 年 7 月28日,智谱正式推出 GLM‑4.5 系列大模型,这是继 GLM‑4 系列之后的又一次全面升级,也是智谱首次面向智能 Agent 应用场景定制的旗舰级基础模型。GLM‑4.5 以开箱即用的形式开放权重、推理能力与思考模式,不仅在多个国际 benchmark 中跻身前三,更以超高性价比、支持工具调用与结构化推理的能力,引发业界广泛关注。
模型介绍
GLM-4.5 系列模型是专为智能体设计的基础模型。GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air 采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。GLM-4.5模型统一了推理、编码和智能体能力,以满足智能体应用的复杂需求。
GLM-4.5 和 GLM-4.5-Air 都是混合推理模型,提供两种模式:用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。
目前已开源了 GLM-4.5 和 GLM-4.5-Air 的基础模型、混合推理模型以及混合推理模型的FP8版本。它们采用MIT开源许可证发布,可用于商业用途和二次开发。
在12项行业标准基准的全面评估中,GLM-4.5表现卓越,得分 63.2,在所有专有和开源模型中排名第3 。值得注意的是,GLM-4.5-Air在保持优异效率的同时,仍取得了 59.8 的竞争性成绩
GLM-4.5 和 GLM-4.5-Air 都是混合推理模型,提供:用于复杂推理和工具运用的思维模式,以及用于即时响应的非思维模式。它们在Z.ai上可用,Z.ai API和开放权重在HuggingFace和ModelScope上可用。
背景
LLM 始终致力于在广泛领域实现人类水平的认知能力,而非为特定任务而设计。优秀的 LLM 模型需要具备通用问题解决能力、泛化能力、常识推理能力以及自我提升能力。在过去五年中,OpenAI 的 GPT-3 学习了常识知识,而 o1 则利用强化学习进行思考后再做出反应,显著提升了模型在编码、数据分析和复杂数学方面的推理能力。然而,这些模型仍然不够通用:有些模型擅长编码,有些擅长数学,有些擅长推理,但没有一个模型能够在所有不同任务中都取得最佳性能。GLM-4.5 致力于统一所有不同能力。
总体表现
将 GLM-4.5 与 OpenAI、Anthropic、Google DeepMind、xAI、阿里巴巴、Moonshot 和 DeepSeek 的各种模型在 12 个基准测试中进行了比较,涵盖代理 (3)、推理 (7) 和编码 (2)。总体而言,GLM-4.5 排名第三,GLM-4.5 Air 排名第六。
代理任务
GLM-4.5 是一个针对代理任务优化的基础模型。它提供 128k 的上下文长度和原生函数调用能力。我们在 τ-bench 和 BFCL-v3(伯克利函数调用排行榜 v3)上测试了其代理能力。在这两个基准测试中,GLM-4.5 的性能均与 Claude 4 Sonnet 相当。
网页浏览是一种流行的代理应用,需要复杂的推理和多轮工具的使用。我们在BrowseComp基准测试中评估了 GLM-4.5。BrowseComp 基准测试是一项颇具挑战性的网页浏览基准测试,其中包含一些需要简短回答的复杂问题。在访问网页浏览工具的情况下,GLM-4.5 在所有问题的正确率达到 26.4%,明显优于 Claude-4-Opus(18.8%),并接近 o4-mini-high(28.3%)。下图展示了 GLM-4.5 在 BrowseComp 上的测试时间缩放准确率。
下表列出了不同对比模型在三个用于评估模型代理能力的Benchmark上的详细结果。
推理
在思维模式下,GLM-4.5和GLM-4.5-Air可以解决包括数学、科学、逻辑等复杂的推理问题。
编码
GLM-4.5 擅长编码,包括从零开始构建编码项目以及代理解决现有项目中的编码任务。它可以与现有的编码工具包(例如Claude Code、Roo Code和CodeGeex)无缝集成。为了评估其编码能力,我们在 SWE-bench Verified 和 Terminal Bench 上比较了不同的模型。下表列出了结果。
对所有对比模型进行了帕累托前沿分析(如下图所示)。GLM-4.5 和 GLM-4.5-Air 相对于同等规模的模型表现出更优异的性能,在性能与规模的权衡边界上实现了最优效率。
GLM-4.5 展现了全面的全栈开发能力,能够无缝创建涵盖前端实现、数据库管理和后端部署的 Web 应用程序。GLM-4.5 生成的前端界面展现出增强的功能和美观度,高度契合人性化的设计偏好。此外,GLM-4.5 在生成演示文稿(包括幻灯片和海报)方面表现出色,当与用于信息检索和上下文增强的代理工具集成时,其功能得到显著增强。
为了评估 GLM-4.5 的代理编码能力,我们利用 Claude Code 评估了其与 Claude-4-Sonnet、Kimi K2 和 Qwen3-Coder 在 52 项编码任务上的性能,这些任务涵盖前端开发、工具开发、数据分析、测试和算法实现。所有评估均在独立的测试环境中进行,通过多轮人机交互,并采用标准化评估标准,以确保一致性和可重复性。实证结果表明,GLM-4.5 对 Kimi K2 的胜率为 53.9%,并以 80.8% 的成功率显著优于 Qwen3-Coder。虽然 GLM-4.5 表现出了相当不错的性能,但与 Claude-4-Sonnet 相比仍有进一步优化的空间。
相关链接
技术报告:https://z.ai/blog/glm-4.5 源码:https://github.com/zai-org/GLM-4.5 模型:https://huggingface.co/zai-org/GLM-4.5
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论