Google 最新推出的 Gemini 3.1 Pro 在 ARC-AGI-2、GPQA Diamond 等多个核心基准测试中表现超越 Anthropic Opus 4.6,且 API 使用成本仅为后者一半。该模型目前已推出预览版,适用于寻求高性价比 AI 解决方案的开发者与企业用户,支持通过 AI Studio、Vertex AI 及国内镜像站等渠道体验。
Tags:
Google 凌晨放大招:Gemini 3.1 Pro 性能翻倍,直接干翻 Opus 4.6!
昨天还在印度 AI 峰会上看 OpenAI 和 Anthropic 两位 CEO 拒绝握手、高举拳头。
今天凌晨,Google CEO Sundar Pichai 就官宣了 Gemini 3.1 Pro。
时机选得,相当精准。
性能有多强?
先看数据。
ARC-AGI-2:性能翻倍
这是测试模型解决全新逻辑模式能力的基准。
Gemini 3.1 Pro 拿下 77.1%。
什么概念?
上代 Gemini 3 Pro:31.1% Anthropic Opus 4.6:68.8% OpenAI GPT-5.2:52.9%
比上代翻了一倍多,直接压过 Opus 4.6。
科学知识:GPQA Diamond 94.3%
这是测试科学知识的基准。
Gemini 3.1 Pro 拿了 94.3%。
基本上,科学问题它都能答对。
智能体能力:MCP Atlas 69.2%
这是测试智能体能力的基准。
Gemini 3.1 Pro:
MCP Atlas:69.2% BrowseComp:85.9%
智能体能力也很强。
编程能力:LiveCodeBench Pro Elo 2887
这是测试编程能力的基准。
Gemini 3.1 Pro:2887
上代 Gemini 3 Pro:2439 OpenAI GPT-5.2:2393
编程能力也是碾压级别的。
SWE-Bench Verified 上,Gemini 3.1 Pro 拿了 80.6%,和 Opus 4.6 的 80.8% 基本打平。
哪里不如对手?
当然,Gemini 3.1 Pro 也不是处处碾压。
MMMU Pro:略输上代
多模态基准 MMMU Pro 上:
上代 Gemini 3 Pro:81.0% Gemini 3.1 Pro:80.5%
上代反而略胜。
Humanity's Last Exam:输给 Opus 4.6
启用工具支持的 Humanity's Last Exam 里:
Opus 4.6:53.1% Gemini 3.1 Pro:(未公布,但不是第一)
工具使用效率,Google 还是没能完全堵上嘴。
第三方怎么评价?
Artificial Analysis 是知名的第三方分析机构。
他们给出了相当实在的评价:
Gemini 3.1 Pro 在智能指数里排名第一,比 Opus 4.6 高 4 分。
更重要的是:
整个测试跑下来,总计使用约 5700 万 tokens。
完成测试的成本:
Gemini 3.1 Pro:不到 Opus 4.6 的一半
能打又省钱,这个组合还是很香的。
价格怎么样?
API 按分级付费,整体和上代 Gemini 3 Pro 保持一致。
20 万 tokens 以内
输入:$2 / 每百万 tokens 输出:$12 / 每百万 tokens
超过 20 万 tokens
输入:$4 / 每百万 tokens 输出:$18 / 每百万 tokens
搜索功能
前 5000 次:免费 之后:$14 / 每 1000 次查询
跟 Anthropic Opus 系列比,还是相对便宜的。
在哪里能用?
现在,Gemini 3.1 Pro 已经可以在很多地方使用:
开发者
AI Studio Gemini API Gemini CLI Google Antigravity(智能体开发平台) Android Studio
企业用户
Vertex AI Gemini Enterprise
普通用户
Gemini 应用 NotebookLM(仅限 Pro 和 Ultra 订阅)
技术细节
Google 说得很清楚:
Gemini 3.1 Pro 是专为那些「一个简单答案远远不够」的任务而设计的。
是解决复杂问题的基础底座。
按惯例,0.1 的版本号更新通常意味着小修小补。
但这次不一样。
ARC-AGI-2 基准上,性能直接翻倍。
这说明 Google 在模型架构或训练方法上,做了重大改进。
值得注意的是
Gemini 3.1 Pro 目前只是预览版。
Google 大概率是要继续打磨好智能体工作流再推正式版。
向外界展示出一副还没使全力的姿态。
这也意味着:
正式版可能会更强。
和 Opus 4.6 对比
我把两个模型的关键数据放在一起:
总体来说,Gemini 3.1 Pro 在大部分基准上都领先。
而且成本更低。
唯一的短板是工具使用效率。
业界反应
Google DeepMind 首席科学家 Jeff Dean 转发了一个用 Gemini 3.1 Pro 模拟城市规划的应用。
从零生成可交互的规划界面 demo。
去年从 Anthropic 转投 Google DeepMind 的清华物理系特奖得主姚顺宇也站台宣传:
「Gemini 不仅是一个优秀的模型,而且更好的模型正以不可阻挡的方式到来。」
我的看法
Gemini 3.1 Pro 这次更新,确实很猛。
性能翻倍,价格不变。
而且还是预览版,正式版可能更强。
如果你在用 AI 模型:
需要高性能 预算有限 不太依赖工具调用
那 Gemini 3.1 Pro 是个很好的选择。
但如果你:
需要频繁调用工具 对多模态要求高
那可能还是 Opus 4.6 更合适。
总的来说,这次 Google 确实拿出了诚意。
AI 大战,越来越激烈了。
国内怎么用?
如果你在国内,想体验 Gemini 3.1 Pro,可以用镜像站。
注册账号,限时免费,无需魔法上网。
镜像站地址:https://geminiai.asia/list/#/home
注册后即可使用,支持所有 Gemini 模型。
相关链接:
Gemini 镜像站(注册账号,限时免费):https://geminiai.asia/list/#/home Gemini 3.1 Pro 官方博客 AI Studio