重磅发布!GPT-5.2 正式上线:满分数学、最强智能体,三大版本全解析刚刚,OpenAI 正式发布了 GPT-5.2。
重磅发布!GPT-5.2 正式上线:满分数学、最强智能体,三大版本全解析
刚刚,OpenAI 正式发布了 GPT-5.2。这是一次巨大的飞跃,不仅在数学竞赛中拿到了满分,更在代理(Agent)能力上实现了质的突破。
此次发布共包含三个版本,API 现已上线,ChatGPT Plus 及以上付费用户即日起开始推送。
国内免费体验通道:https://chatgpt-plus.top/list/#/home
1. 三大版本:满足不同需求
GPT-5.2 针对不同场景推出了三个细分版本,具体定位如下:
| GPT-5.2 Instant | 速度快 | |
| GPT-5.2 Thinking | 深度思考 | |
| GPT-5.2 Pro | 性能最强 |
2. 核心评测:刷新多项纪录
数据表明,GPT-5.2 是目前地表最强的 AI 模型。
AIME 2025 满分:在不使用任何工具的情况下,不仅做到了,而且是满分。
ARC-AGI 突破:
Pro 版本在 ARC-AGI-1 上达到 **90.5%**,是首个突破 90% 大关的模型。 在更难的 ARC-AGI-2 上,得分从 17.6% 暴涨至 **52.9%**,翻了三倍,与 Gemini3 旗鼓相当。
3. 真实工作能力:替代专家的前奏?
OpenAI 推出了一个新的 Benchmark —— GDPval,专门测试 44 种职业的真实工作任务,包括 做 PPT、做表格、写分析报告 等。
胜率惊人:GPT-5.2 Thinking 在 70.9% 的任务上胜过或持平人类专家;Pro 版更是高达 **74.1%**。 降本增效:速度是人类专家的 11 倍,而成本仅为人类的 **1%**。
实际案例:在投行分析师任务(如为 Fortune 500 公司做 LBO 模型)中,GPT-5.2 制作的表格和 PPT 精度大幅提升,评审员评价其"像是有员工的专业公司做的"。
(左:GPT-5.1 vs 右:GPT-5.2)
4. 编程能力:Agentic Coding 的跃升
在更接近真实软件工程的 SWE-Bench Pro 测试中(支持四种语言),GPT-5.2 Thinking 得分 **55.6%**(前代为 50.8%)。
前端与 3D 生成:凭借单 Prompt 生成复杂 UI 和 3D 效果(如海浪模拟),能力令人惊叹。
Windsurf CEO 评价道:
"这是 GPT-5 以来 Agentic coding 最大的跃升……我们会把它设为核心工作流的默认模型。"
5. 视觉与空间理解:精准定位
GPT-5.2 的视觉错误率减半,且空间位置理解能力大幅增强。
CharXiv Reasoning(科学图表):88.7% ScreenSpot-Pro(GUI 截图):86.3%(前代仅 64.2%)
对比展示:主板组件识别GPT-5.1 只能识别寥寥几个且位置偏移;而 GPT-5.2 能精准标注所有组件位置。
(GPT-5.1 识别效果)
(GPT-5.2 识别效果)
6. 长文本与工具调用:真正的智能助理
长文档无死角
在 256k token 长度的"大海捞针"测试中,GPT-5.2 在 4-needle 变体上接近 100% 准确率,而前代仅为 30%。API 还新增了 /compact 端点,优化长任务处理。
工具调用(Agent)
在模拟客服场景中,GPT-5.2 展现了极强的执行力。案例: 航班延误+行李丢失+改签+特殊需求。
GPT-5.1:漏步骤。 GPT-5.2:一次性搞定改签、座位、赔偿。
7. 数学、科学与幻觉抑制
数学 & 科学:不仅 AIME 满分,GPQA Diamond 达到 92.4%,HMMT 逼近 100%。 幻觉:错误回复相对减少了 **30%**(从 8.8% 降至 6.2%)。
8. 价格与可用性
价格上涨:GPT-5.2 标准版 API 价格比 5.1 **贵了 40%**,Pro 版价格依然高昂。官方表示,尽管单价贵,但 Token 效率更高,总成本反而可能降低。
如何使用:
ChatGPT:今日起向 Plus、Pro、Team、Enterprise 用户推送。GPT-5.1 将保留 3 个月。
API:已上线,模型代号如下:
gpt-5.2(Thinking)gpt-5.2-chat-latest(Instant)gpt-5.2-pro(Pro)
总结
Code Red 一周后,GPT-5.2 如约而至。更强的性能、更高的价格、更智能的 Agent 表现。
核心一句话: 如果你追求极致的复杂任务处理能力,GPT-5.2 Thinking 和 Pro 是目前的不二之选。
没有评论:
发表评论