北京时间凌晨1点,OpenAI如约开启了重磅直播。
如何在国内0成本开始使用o3?
注册即送24小时体验时长,邀请好友各获赠24小时时长。
网址:https://agi.maynor1024.live/list/
产品全家桶升级
从现在起,ChatGPT Plus、Pro和Team用户,在模型选择器里将看到:
o3 o4-mini o4-mini-high
它们直接取代了原先的:
o1 o3-mini o3-mini-high
但最令人期待的o3 pro还得几周后才会上线,当前o1 pro被归入"更多模型"中。
本次发布的两大核心突破
满血版o3正式支持OpenAI各类工具接入(联网、代码解释器等)。 o3和o4-mini成为o系列首批具备"视觉推理链"能力的模型,实现"看图思考"!
下面分板块详细梳理:
一、o3与o4-mini 全面性能解析
这一代更新虽然有多项细节提升,但主流参数早已拉高天花板,难以靠直观使用触及上限。但参数和能力还是要晒!
1.1 知识、推理与综合能力对比
DeepResearch(专门微调专家问答):Humanity's Last Exam中表现力压群雄,源自o3微调。
1.2 多模态视觉推理能力大跃迁
三大数据集说明:
MMMU(大学级视觉数学,多公式多图形,图文结合) MathVista(视觉数学推理,图像/几何/函数曲线等) CharXiv-Reasoning(科技论文图表,流程图、示意图,专业理解)
o3直接把视觉推理能力推上了新高度,首次实现"看图思考"的思维链!
1.3 代码能力显著增强
领域与数据集说明:
SWE-Lancer:真实工程项目任务,偏"赚钱能力"考验。 SWE-Bench Verified:算法/系统/接口题库,人工标注。 Aider Polyglot:多语言代码编辑,重写(Whole)与补丁(Diff)模式。
o3在多个领域全面领先,o4-mini在部分任务略逊于o3-mini,但总体表现出众。
1.4 工具调用能力
Scale MultiChallenge:多轮复杂指令跟随,考查记忆力与上下文执行。 BrowseComp(Agentic Browsing):接入虚拟浏览器,自主查找/整合网页信息。 Tau-bench(函数调用):外部API调用,包括航班、零售场景意图解析。
o3在复杂多轮指令与网页操作有显著提升,但在结构化API调用上略显平稳。
1.5 幻觉率变化
准确率提升,但幻觉率上升:o3比o1更敢做结论,准确率更高,但"生成幻觉"的比率是o1的两倍。
1.6 定价信息
o3比o1便宜三分之一 o4-mini与o3-mini持平,无涨价
这次OpenAI调价终于人性化了。
二、工具使用&视觉推理:从"看图"到"思考"
历代模型的"工具&多模态"痛点
旧版o1/o1 pro最大问题——完全不能用工具,也不支持传PDF,仅能简单识图,十分受限。
这次,o3和o4-mini不仅解锁了OpenAI全部工具,更实现了"视觉–推理闭环",带来了革命性升级。
视觉推理体验案例
场景1:图寻猜地点大赛
任务:AI看图,判断是中国哪一处,并在地图标注。
输入图像后,o4-mini-high展示了"观察-局部放大-区域定位-再判断"的详细视觉思考链条:
最终给出答案:北京门头沟、房山,109国道,妙峰山段。
正确答案揭晓:
AI已经能达到"如同人类看图推理"级别,文字链条之外,首次把"视觉过程"融入思考流程!
场景2:事件判别与细节分析
可传输入复杂事件图片,AI通过视觉"逐步缩放、细节分析、Python辅助"定位事件时间:
三、视觉推理应用前景
视觉推理能力的普及将重塑诸多传统"只需人眼判断"的行业边界:
安全监控:可提前预测异常,而非事后报警。 设计审稿:AI先做一遍自动检查/优化,再交人类终审。 医疗辅助:AI辅助看片、给出多诊断/遗漏点建议,提升诊疗安全。
这正如当年推理模型冲击非推理模型一样,视觉推理将带来又一次生产力范式革命。
如何在国内0成本开始使用?
注册即送24小时体验时长,邀请好友各获赠24小时时长。
网址:https://agi.maynor1024.live/list/
注册好账号后,点击左边侧边框的"SaaSGPT",即可开始使用
如何续费?
在线商店选择带有"可用SaaSGPT多模型"的套餐下单即可,原套餐权益不变、加量不加价,点击侧边框的SaaSGPT即可开始使用,时长与原套餐相等。
总结
满血o3和o4-mini已成为AI视觉推理新标杆。 工具链全面解锁将极大提升AI应用上限。 图像视角下的"思维链",正在把AI推向人类"思考者"的层级。
OpenAI的这波更新,有里程碑式的意义。未来,等o3 pro全面解锁,再见证新一轮AI能力极限!
没有评论:
发表评论