2025年12月12日星期五

重磅发布!GPT-5。2 正式上线:满分数学、最强智能体,三大版本全解析,国内免费使用!

重磅发布!GPT-5.2 正式上线:满分数学、最强智能体,三大版本全解析刚刚,OpenAI 正式发布了 GPT-5.2。


重磅发布!GPT-5.2 正式上线:满分数学、最强智能体,三大版本全解析

刚刚,OpenAI 正式发布了 GPT-5.2。这是一次巨大的飞跃,不仅在数学竞赛中拿到了满分,更在代理(Agent)能力上实现了质的突破。

此次发布共包含三个版本,API 现已上线,ChatGPT Plus 及以上付费用户即日起开始推送。

国内免费体验通道:https://chatgpt-plus.top/list/#/home

图片
图片
图片

1. 三大版本:满足不同需求

GPT-5.2 针对不同场景推出了三个细分版本,具体定位如下:

版本名称
定位与特点
适用场景
GPT-5.2 Instant速度快
,响应即时
日常闲聊、简单问答、快速查询
GPT-5.2 Thinking深度思考
,逻辑缜密
复杂代码、长文档分析、数学推导、任务规划
GPT-5.2 Pro性能最强
,甚至愿意"等"
解决极难问题、科研攻关、顶级推理任务

2. 核心评测:刷新多项纪录

数据表明,GPT-5.2 是目前地表最强的 AI 模型。

  • AIME 2025 满分:在不使用任何工具的情况下,不仅做到了,而且是满分。

  • ARC-AGI 突破

    • Pro 版本在 ARC-AGI-1 上达到 **90.5%**,是首个突破 90% 大关的模型。
    • 在更难的 ARC-AGI-2 上,得分从 17.6% 暴涨至 **52.9%**,翻了三倍,与 Gemini3 旗鼓相当。
图片

3. 真实工作能力:替代专家的前奏?

OpenAI 推出了一个新的 Benchmark —— GDPval,专门测试 44 种职业的真实工作任务,包括 做 PPT、做表格、写分析报告 等。

  • 胜率惊人:GPT-5.2 Thinking 在 70.9% 的任务上胜过或持平人类专家;Pro 版更是高达 **74.1%**。
  • 降本增效:速度是人类专家的 11 倍,而成本仅为人类的 **1%**。
图片

实际案例:在投行分析师任务(如为 Fortune 500 公司做 LBO 模型)中,GPT-5.2 制作的表格和 PPT 精度大幅提升,评审员评价其"像是有员工的专业公司做的"

图片(左:GPT-5.1 vs 右:GPT-5.2)


4. 编程能力:Agentic Coding 的跃升

在更接近真实软件工程的 SWE-Bench Pro 测试中(支持四种语言),GPT-5.2 Thinking 得分 **55.6%**(前代为 50.8%)。

图片

前端与 3D 生成:凭借单 Prompt 生成复杂 UI 和 3D 效果(如海浪模拟),能力令人惊叹。

图片

Windsurf CEO 评价道:

"这是 GPT-5 以来 Agentic coding 最大的跃升……我们会把它设为核心工作流的默认模型。"


5. 视觉与空间理解:精准定位

GPT-5.2 的视觉错误率减半,且空间位置理解能力大幅增强。

  • CharXiv Reasoning(科学图表):88.7%
  • ScreenSpot-Pro(GUI 截图):86.3%(前代仅 64.2%)

对比展示:主板组件识别GPT-5.1 只能识别寥寥几个且位置偏移;而 GPT-5.2 能精准标注所有组件位置。

(GPT-5.1 识别效果)图片

(GPT-5.2 识别效果)图片


6. 长文本与工具调用:真正的智能助理

长文档无死角

在 256k token 长度的"大海捞针"测试中,GPT-5.2 在 4-needle 变体上接近 100% 准确率,而前代仅为 30%。API 还新增了 /compact 端点,优化长任务处理。

图片

工具调用(Agent)

在模拟客服场景中,GPT-5.2 展现了极强的执行力。案例: 航班延误+行李丢失+改签+特殊需求。

  • GPT-5.1:漏步骤。
  • GPT-5.2:一次性搞定改签、座位、赔偿。
图片

7. 数学、科学与幻觉抑制

  • 数学 & 科学:不仅 AIME 满分,GPQA Diamond 达到 92.4%,HMMT 逼近 100%。
  • 幻觉:错误回复相对减少了 **30%**(从 8.8% 降至 6.2%)。
图片

8. 价格与可用性

价格上涨:GPT-5.2 标准版 API 价格比 5.1 **贵了 40%**,Pro 版价格依然高昂。官方表示,尽管单价贵,但 Token 效率更高,总成本反而可能降低。

图片

如何使用:

  1. ChatGPT:今日起向 Plus、Pro、Team、Enterprise 用户推送。GPT-5.1 将保留 3 个月。

  2. API:已上线,模型代号如下:

    • gpt-5.2 (Thinking)
    • gpt-5.2-chat-latest (Instant)
    • gpt-5.2-pro (Pro)
图片

总结

Code Red 一周后,GPT-5.2 如约而至。更强的性能、更高的价格、更智能的 Agent 表现。

核心一句话: 如果你追求极致的复杂任务处理能力,GPT-5.2 Thinking 和 Pro 是目前的不二之选。


没有评论:

发表评论

挖到 5 个很哇塞的 AI 开源项目,快来瞧瞧。

01 Nano Banana PPT Banana-slides   是基于 N ano Banana Pro 模型 开源的 AI PPT 生成应用, 解决传统 AI PPT 工具模板僵化、设计感差和素材质量低的问题。 一句话生成 PPT :从一个简单的想法快速得到大纲、页面...