2025年4月16日星期三

国产大模型崛起!智谱发布GLM-4-32B-0414系列模型,以32B模型参数比肩GPT-4o和DeepSeek V3/R1。




2025年4月14日,中国AI领军企业智谱AI正式推出GLM-4-32B-0414系列大模型,以32B参数量实现全方位能力跃升。该系列创新性融合对话、推理、沉思等多元智能模块,在基准测试中展现出与GPT-4o、DeepSeek-V3/R1等国际顶尖模型比肩的综合性能。尤为关键的是,智谱此次以MIT开源协议向全球开放模型权重,结合其突出的本地化部署优势,真正实现了"高性能"与"普惠性"的双重突破。作为"大模型六小虎"中IPO进程最快的企业,智谱此番动作既彰显了国产大模型的技术实力,更为行业树立了商业化与开源化协同发展的新范式。

效果展示

动画绘制

网页设计

提示词:设计一个支持自定义函数绘制的绘图板,可以添加和删除自定义函数,并为函数指定颜色。

给我设计一个移动端机器学习平台的 UI,其中要包括训练任务,存储管理,和个人统计信息界面。个人信息统计界面要用图表展示用户过去一段时间的各类资源使用情况。使用 Tailwind CSS 来美化页面,把这 3 个手机界面平铺展示到一个 HTML 页面中。

SVG生成

用 SVG 展示一个 LLM 的训练流程

相关链接

  • 论文:https://arxiv.org/pdf/2406.12793
  • 官网:https://www.zhipu.ai/
  • 试用:https://modelscope.cn/studios/ZhipuAI/GLM-Z1-9B-0414/summary
  • 文档:https://github.com/THUDM/GLM-4/blob/main/README_zh.md
  • 模型:https://huggingface.co/collections/THUDM/glm-4-0414-67f3cbcb34dd9d252707cb2e

模型介绍

智谱AI正式推出新一代开源大模型 GLM-4-32B-0414 系列,以 320亿参数规模实现多维度能力突破,综合表现媲美 GPT-4o 和 DeepSeek-V3/R1等顶尖模型。该系列基于15T 高质量数据预训练,特别强化了推理类合成数据,为后续强化学习优化奠定坚实基础。  


在后训练阶段,GLM-4-32B-0414 不仅优化了对话场景的人类偏好对齐,更通过拒绝采样(Rejection Sampling) 和 强化学习(RL) 技术,显著提升了**指令遵循、工程代码、函数调用等关键能力,使其在智能体任务中表现更加稳定可靠。  

实际测试表明,GLM-4-32B-0414 在代码生成、Artifacts 构建、函数调用、搜索增强问答等场景下表现优异,部分 Benchmark 甚至接近更大规模的 GPT-4o和 DeepSeek-V3-0324(671B)。同时,该模型延续了 GLM 家族本地化部署友好的特性,结合MIT 开源协议,为开发者与企业提供了更灵活、高效的大模型应用方案。  

作为国产大模型的代表之一,GLM-4-32B-0414 的发布不仅展现了智谱AI的技术实力,也为全球开源社区贡献了一款兼具**高性能与实用性**的先进模型。

GLM-Z1-32B-0414 是具有深度思考能力的推理模型,这是在 GLM-4-32B-0414 的基础上,通过冷启动和扩展强化学习,以及在数学、代码和逻辑等任务上对模型的进一步训练得到的。相对于基础模型,GLM-Z1-32B-0414 显著提升了数理能力和解决复杂任务的能力。在训练的过程中,我们还引入了基于对战排序反馈的通用强化学习,进一步增强了模型的通用能力。

GLM-Z1-Rumination-32B-0414 是具有沉思能力的深度推理模型(对标 Open AI 的 Deep Research)。不同于一般的深度思考模型,沉思模型通过更长时间的深度思考来解决更开放和复杂的问题(例如:撰写两个城市AI发展对比情况,以及未来的发展规划),沉思模型在深度思考过程中结合搜索工具处理复杂任务,并经过利用多种规则型奖励来指导和扩展端到端强化学习训练得到。Z1-Rumination 在研究型写作和复杂检索任务上的能力得到了显著提升。

最后,GLM-Z1-9B-0414 是一个惊喜。沿用上述一系列技术,训练了一个保持开源传统的 9B 小尺寸模型。尽管规模更小,GLM-Z1-9B-0414 在数学推理和通用任务中依然展现出极为优秀的能力,其整体表现已处于同尺寸开源模型中的领先水平。特别是在资源受限的场景下,该模型在效率与效果之间实现了出色的平衡,为追求轻量化部署的用户提供了强有力的选择。

模型列表

GLM-4-9B-0414 由于其较小的模型容量,我们未对其智能体能力进行类似 GLM-4-32B-0414 的强化,主要针对翻译等需要大批量调用的场景进行优化。

评测结果

GLM-4-0414 系列

对于 SimpleQA 和 HotpotQA,我们分别从测试集中采样了近500条测试样例,提供所有模型最基础的 search 和 click 工具,另外确保其余 Setting 保持一致后,3次评测取平均值。

  1. Moatless v0.0.3 使用如下参数 response_format="react", thoughts_in_action=False, max_interations=30,未对失败轨迹进行重试,其余为默认配置

  2. Agentless v1.5.0 其中的 Embedding 模型使用了 BGE,基于FAISS进行相似性检索,为加快patch验证的速度同时尽可能保证效果,将运行单个实例的超时时间从默认的300s修改为180s

  3. OpenHands v0.29.1 未采用 YaRN 上下文扩展,而是限制了最大 60 个 iterations,并对 history 进行 summarization 以防止超出 32K 上下文限制,summarization 配置为 llm_config="condenser", keep_first=1, max_size=32,同样未对失败轨迹进行重试。

GLM-Z1-0414 系列

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

性能SOTA,效率更高!清北&阶跃星辰重磅发布GPDiT:扩散与自回归统一的视频生成框架

点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 作者:Yuan Zhang等 解读:AI生成未来 文章链接:https://arxiv.org/pdf/2505.07344 亮点直击 GPDiT ,...