2025年4月17日星期四

OpenAI深夜直播炸场！o3与o4-mini首发，AI真的开始像人类一样“看图思考”了！(附国内使用地址)

北京时间凌晨1点，OpenAI如约开启了重磅直播。

如何在国内0成本开始使用o3？

注册即送24小时体验时长，邀请好友各获赠24小时时长。

网址：https://agi.maynor1024.live/list/

image-20250410130634057

产品全家桶升级

从现在起，ChatGPT Plus、Pro和Team用户，在模型选择器里将看到：

o3
o4-mini
o4-mini-high

它们直接取代了原先的：

o1
o3-mini
o3-mini-high

但最令人期待的o3 pro还得几周后才会上线，当前o1 pro被归入"更多模型"中。

本次发布的两大核心突破

满血版o3正式支持OpenAI各类工具接入（联网、代码解释器等）。
o3和o4-mini成为o系列首批具备"视觉推理链"能力的模型，实现"看图思考"！

下面分板块详细梳理：

一、o3与o4-mini 全面性能解析

这一代更新虽然有多项细节提升，但主流参数早已拉高天花板，难以靠直观使用触及上限。但参数和能力还是要晒！

1.1 知识、推理与综合能力对比

模型/测试	2024年AIME（数学）	Codeforces（代码）	GPQA Diamond（科学问答）	Humanity's Last Exam（跨学科专家考）	工具使用能力提升
o1	74.3%	1891	-	-	不支持
o3-mini	87.3%	2073	-	-	不支持
o3（裸模）	91.6%	-	83.3%	20.3%	支持
o3（配Python）	95.2%	-	-	24.9%
o4-mini（裸模）	93.4%	-	81.4%	14.3%	支持
o4-mini（Python）	98.7%	-	-	17.7%

DeepResearch（专门微调专家问答）：Humanity's Last Exam中表现力压群雄，源自o3微调。

1.2 多模态视觉推理能力大跃迁

三大数据集说明：

MMMU（大学级视觉数学，多公式多图形，图文结合）
MathVista（视觉数学推理，图像/几何/函数曲线等）
CharXiv-Reasoning（科技论文图表，流程图、示意图，专业理解）

模型	MMMU	MathVista	CharXiv-Reasoning
o1	77.6%	71.8%	55.1%
o3	82.9%	87.5%	75.4%

o3直接把视觉推理能力推上了新高度，首次实现"看图思考"的思维链！

1.3 代码能力显著增强

领域与数据集说明：

SWE-Lancer：真实工程项目任务，偏"赚钱能力"考验。
SWE-Bench Verified：算法/系统/接口题库，人工标注。
Aider Polyglot：多语言代码编辑，重写（Whole）与补丁（Diff）模式。

o3在多个领域全面领先，o4-mini在部分任务略逊于o3-mini，但总体表现出众。

1.4 工具调用能力

Scale MultiChallenge：多轮复杂指令跟随，考查记忆力与上下文执行。
BrowseComp（Agentic Browsing）：接入虚拟浏览器，自主查找/整合网页信息。
Tau-bench（函数调用）：外部API调用，包括航班、零售场景意图解析。

o3在复杂多轮指令与网页操作有显著提升，但在结构化API调用上略显平稳。

1.5 幻觉率变化

准确率提升，但幻觉率上升：o3比o1更敢做结论，准确率更高，但"生成幻觉"的比率是o1的两倍。

1.6 定价信息

o3比o1便宜三分之一
o4-mini与o3-mini持平，无涨价

这次OpenAI调价终于人性化了。

二、工具使用&视觉推理：从"看图"到"思考"

历代模型的"工具&多模态"痛点

旧版o1/o1 pro最大问题——完全不能用工具，也不支持传PDF，仅能简单识图，十分受限。

这次，o3和o4-mini不仅解锁了OpenAI全部工具，更实现了"视觉–推理闭环"，带来了革命性升级。

视觉推理体验案例

场景1：图寻猜地点大赛

任务：AI看图，判断是中国哪一处，并在地图标注。

输入图像后，o4-mini-high展示了"观察-局部放大-区域定位-再判断"的详细视觉思考链条：

最终给出答案：北京门头沟、房山，109国道，妙峰山段。

图片

正确答案揭晓：

图片

AI已经能达到"如同人类看图推理"级别，文字链条之外，首次把"视觉过程"融入思考流程！

场景2：事件判别与细节分析

可传输入复杂事件图片，AI通过视觉"逐步缩放、细节分析、Python辅助"定位事件时间：

image-20250417113320949

三、视觉推理应用前景

视觉推理能力的普及将重塑诸多传统"只需人眼判断"的行业边界：

安全监控：可提前预测异常，而非事后报警。
设计审稿：AI先做一遍自动检查/优化，再交人类终审。
医疗辅助：AI辅助看片、给出多诊断/遗漏点建议，提升诊疗安全。

这正如当年推理模型冲击非推理模型一样，视觉推理将带来又一次生产力范式革命。

如何在国内0成本开始使用？

注册即送24小时体验时长，邀请好友各获赠24小时时长。

网址：https://agi.maynor1024.live/list/

image-20250410130634057

注册好账号后，点击左边侧边框的"SaaSGPT"，即可开始使用

image-20250410125422862

image-20250410125841335

image-20250410125918873

如何续费？

在线商店选择带有"可用SaaSGPT多模型"的套餐下单即可，原套餐权益不变、加量不加价，点击侧边框的SaaSGPT即可开始使用，时长与原套餐相等。

总结

满血o3和o4-mini已成为AI视觉推理新标杆。
工具链全面解锁将极大提升AI应用上限。
图像视角下的"思维链"，正在把AI推向人类"思考者"的层级。

OpenAI的这波更新，有里程碑式的意义。未来，等o3 pro全面解锁，再见证新一轮AI能力极限！

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024