2025年4月17日星期四

OpenAI深夜直播炸场!o3与o4-mini首发,AI真的开始像人类一样“看图思考”了!(附国内使用地址)


北京时间凌晨1点,OpenAI如约开启了重磅直播。

图片

如何在国内0成本开始使用o3?

注册即送24小时体验时长,邀请好友各获赠24小时时长。

网址:https://agi.maynor1024.live/list/

image-20250410130634057

产品全家桶升级

从现在起,ChatGPT Plus、Pro和Team用户,在模型选择器里将看到:

  • o3
  • o4-mini
  • o4-mini-high

它们直接取代了原先的:

  • o1
  • o3-mini
  • o3-mini-high
图片

但最令人期待的o3 pro还得几周后才会上线,当前o1 pro被归入"更多模型"中。


本次发布的两大核心突破

  1. 满血版o3正式支持OpenAI各类工具接入(联网、代码解释器等)。
  2. o3和o4-mini成为o系列首批具备"视觉推理链"能力的模型,实现"看图思考"!

下面分板块详细梳理:


一、o3与o4-mini 全面性能解析

这一代更新虽然有多项细节提升,但主流参数早已拉高天花板,难以靠直观使用触及上限。但参数和能力还是要晒!

1.1 知识、推理与综合能力对比

图片
模型/测试
2024年AIME(数学)
Codeforces(代码)
GPQA Diamond(科学问答)
Humanity's Last Exam(跨学科专家考)
工具使用能力提升
o1
74.3%
1891
-
-
不支持
o3-mini
87.3%
2073
-
-
不支持
o3(裸模)
91.6%
-
83.3%
20.3%
支持
o3(配Python)
95.2%
-
-
24.9%

o4-mini(裸模)
93.4%
-
81.4%
14.3%
支持
o4-mini(Python)
98.7%
-
-
17.7%

DeepResearch(专门微调专家问答):Humanity's Last Exam中表现力压群雄,源自o3微调。


1.2 多模态视觉推理能力大跃迁

图片

三大数据集说明:

  • MMMU(大学级视觉数学,多公式多图形,图文结合)
  • MathVista(视觉数学推理,图像/几何/函数曲线等)
  • CharXiv-Reasoning(科技论文图表,流程图、示意图,专业理解)
模型
MMMU
MathVista
CharXiv-Reasoning
o1
77.6%
71.8%
55.1%
o3
82.9%
87.5%
75.4%

o3直接把视觉推理能力推上了新高度,首次实现"看图思考"的思维链!


1.3 代码能力显著增强

图片

领域与数据集说明:

  • SWE-Lancer:真实工程项目任务,偏"赚钱能力"考验。
  • SWE-Bench Verified:算法/系统/接口题库,人工标注。
  • Aider Polyglot:多语言代码编辑,重写(Whole)与补丁(Diff)模式。

o3在多个领域全面领先,o4-mini在部分任务略逊于o3-mini,但总体表现出众。


1.4 工具调用能力

图片
  • Scale MultiChallenge:多轮复杂指令跟随,考查记忆力与上下文执行。
  • BrowseComp(Agentic Browsing):接入虚拟浏览器,自主查找/整合网页信息。
  • Tau-bench(函数调用):外部API调用,包括航班、零售场景意图解析。

o3在复杂多轮指令与网页操作有显著提升,但在结构化API调用上略显平稳。


1.5 幻觉率变化

图片
  • 准确率提升,但幻觉率上升:o3比o1更敢做结论,准确率更高,但"生成幻觉"的比率是o1的两倍。

1.6 定价信息

图片
  • o3比o1便宜三分之一
  • o4-mini与o3-mini持平,无涨价

这次OpenAI调价终于人性化了。


二、工具使用&视觉推理:从"看图"到"思考"

历代模型的"工具&多模态"痛点

旧版o1/o1 pro最大问题——完全不能用工具,也不支持传PDF,仅能简单识图,十分受限。

这次,o3和o4-mini不仅解锁了OpenAI全部工具,更实现了"视觉–推理闭环",带来了革命性升级。


视觉推理体验案例

场景1:图寻猜地点大赛

任务:AI看图,判断是中国哪一处,并在地图标注。

图片
  • 输入图像后,o4-mini-high展示了"观察-局部放大-区域定位-再判断"的详细视觉思考链条
PixPin_2025-04-17_11-21-52
  • 最终给出答案:北京门头沟、房山,109国道,妙峰山段
图片
  • 正确答案揭晓:
图片

AI已经能达到"如同人类看图推理"级别,文字链条之外,首次把"视觉过程"融入思考流程!


场景2:事件判别与细节分析

  • 可传输入复杂事件图片,AI通过视觉"逐步缩放、细节分析、Python辅助"定位事件时间:
image-20250417113320949

三、视觉推理应用前景

视觉推理能力的普及将重塑诸多传统"只需人眼判断"的行业边界

  • 安全监控:可提前预测异常,而非事后报警。
  • 设计审稿:AI先做一遍自动检查/优化,再交人类终审。
  • 医疗辅助:AI辅助看片、给出多诊断/遗漏点建议,提升诊疗安全。

这正如当年推理模型冲击非推理模型一样,视觉推理将带来又一次生产力范式革命。


如何在国内0成本开始使用?

注册即送24小时体验时长,邀请好友各获赠24小时时长。

网址:https://agi.maynor1024.live/list/

image-20250410130634057

注册好账号后,点击左边侧边框的"SaaSGPT",即可开始使用

image-20250410125422862
image-20250410125841335
image-20250410125918873

如何续费?

在线商店选择带有"可用SaaSGPT多模型"的套餐下单即可,原套餐权益不变、加量不加价,点击侧边框的SaaSGPT即可开始使用,时长与原套餐相等。

总结

  • 满血o3和o4-mini已成为AI视觉推理新标杆。
  • 工具链全面解锁将极大提升AI应用上限。
  • 图像视角下的"思维链",正在把AI推向人类"思考者"的层级。

OpenAI的这波更新,有里程碑式的意义。未来,等o3 pro全面解锁,再见证新一轮AI能力极限!


没有评论:

发表评论

[ComfyUI]FramePack首尾帧工作流,生成丝滑AI视频,实现视频过程精准控制

前几天向大家介绍了通过FramePack实现超长时长AI视频的制作方法,收到了很多小伙伴的留言,今天我们来介绍 前几天向大家介绍了通过FramePack实现超长时长AI视频的制作方法,收到了很多小伙伴的留言,今天向大家介绍如何通过首尾帧控制来提高FramePack视频的可控性...