2026年2月21日星期六

Google Gemini 3。1 Pro 预览版发布:ARC-AGI-2 性能翻倍,成本低于 Opus 4。6

Google 最新推出的 Gemini 3.1 Pro 在 ARC-AGI-2、GPQA Diamond 等多个核心基准测试中表现超越 Anthropic Opus 4.6,且 API 使用成本仅为后者一半。该模型目前已推出预览版,适用于寻求高性价比 AI 解决方案的开发者与企业用户,支持通过 AI Studio、Vertex AI 及国内镜像站等渠道体验。

Tags:

Google 凌晨放大招:Gemini 3.1 Pro 性能翻倍,直接干翻 Opus 4.6!

昨天还在印度 AI 峰会上看 OpenAI 和 Anthropic 两位 CEO 拒绝握手、高举拳头。

OpenAI 和 Anthropic CEO 拒绝握手
OpenAI 和 Anthropic CEO 拒绝握手

今天凌晨,Google CEO Sundar Pichai 就官宣了 Gemini 3.1 Pro。

时机选得,相当精准。

Gemini 3.1 Pro 发布
Gemini 3.1 Pro 发布

性能有多强?

先看数据。

ARC-AGI-2:性能翻倍

这是测试模型解决全新逻辑模式能力的基准。

Gemini 3.1 Pro 拿下 77.1%。

什么概念?

  • 上代 Gemini 3 Pro:31.1%
  • Anthropic Opus 4.6:68.8%
  • OpenAI GPT-5.2:52.9%

比上代翻了一倍多,直接压过 Opus 4.6。

ARC-AGI-2 性能对比
ARC-AGI-2 性能对比

科学知识:GPQA Diamond 94.3%

这是测试科学知识的基准。

Gemini 3.1 Pro 拿了 94.3%。

基本上,科学问题它都能答对。

智能体能力:MCP Atlas 69.2%

这是测试智能体能力的基准。

Gemini 3.1 Pro:

  • MCP Atlas:69.2%
  • BrowseComp:85.9%

智能体能力也很强。

智能体性能
智能体性能

编程能力:LiveCodeBench Pro Elo 2887

这是测试编程能力的基准。

Gemini 3.1 Pro:2887

  • 上代 Gemini 3 Pro:2439
  • OpenAI GPT-5.2:2393

编程能力也是碾压级别的。

SWE-Bench Verified 上,Gemini 3.1 Pro 拿了 80.6%,和 Opus 4.6 的 80.8% 基本打平。

哪里不如对手?

当然,Gemini 3.1 Pro 也不是处处碾压。

MMMU Pro:略输上代

多模态基准 MMMU Pro 上:

  • 上代 Gemini 3 Pro:81.0%
  • Gemini 3.1 Pro:80.5%

上代反而略胜。

Humanity's Last Exam:输给 Opus 4.6

启用工具支持的 Humanity's Last Exam 里:

  • Opus 4.6:53.1%
  • Gemini 3.1 Pro:(未公布,但不是第一)

工具使用效率,Google 还是没能完全堵上嘴。

第三方怎么评价?

Artificial Analysis 是知名的第三方分析机构。

他们给出了相当实在的评价:

Artificial Analysis 评价
Artificial Analysis 评价

Gemini 3.1 Pro 在智能指数里排名第一,比 Opus 4.6 高 4 分。

更重要的是:

整个测试跑下来,总计使用约 5700 万 tokens。

完成测试的成本:

  • Gemini 3.1 Pro:不到 Opus 4.6 的一半

能打又省钱,这个组合还是很香的。

价格怎么样?

API 按分级付费,整体和上代 Gemini 3 Pro 保持一致。

20 万 tokens 以内

  • 输入:$2 / 每百万 tokens
  • 输出:$12 / 每百万 tokens

超过 20 万 tokens

  • 输入:$4 / 每百万 tokens
  • 输出:$18 / 每百万 tokens

搜索功能

  • 前 5000 次:免费
  • 之后:$14 / 每 1000 次查询
价格对比
价格对比

跟 Anthropic Opus 系列比,还是相对便宜的。

在哪里能用?

现在,Gemini 3.1 Pro 已经可以在很多地方使用:

开发者

  • AI Studio
  • Gemini API
  • Gemini CLI
  • Google Antigravity(智能体开发平台)
  • Android Studio

企业用户

  • Vertex AI
  • Gemini Enterprise

普通用户

  • Gemini 应用
  • NotebookLM(仅限 Pro 和 Ultra 订阅)

技术细节

Google 说得很清楚:

Gemini 3.1 Pro 是专为那些「一个简单答案远远不够」的任务而设计的。

是解决复杂问题的基础底座。

按惯例,0.1 的版本号更新通常意味着小修小补。

但这次不一样。

ARC-AGI-2 基准上,性能直接翻倍。

这说明 Google 在模型架构或训练方法上,做了重大改进。

值得注意的是

Gemini 3.1 Pro 目前只是预览版。

Google 大概率是要继续打磨好智能体工作流再推正式版。

向外界展示出一副还没使全力的姿态。

这也意味着:

正式版可能会更强。

和 Opus 4.6 对比

我把两个模型的关键数据放在一起:

基准
Gemini 3.1 Pro
Opus 4.6
ARC-AGI-2
77.1%
68.8%
GPQA Diamond
94.3%
-
LiveCodeBench Pro
2887
-
SWE-Bench Verified
80.6%
80.8%
Humanity's Last Exam
-
53.1%
成本

总体来说,Gemini 3.1 Pro 在大部分基准上都领先。

而且成本更低。

唯一的短板是工具使用效率。

业界反应

Google DeepMind 首席科学家 Jeff Dean 转发了一个用 Gemini 3.1 Pro 模拟城市规划的应用。

从零生成可交互的规划界面 demo。

城市规划 demo
城市规划 demo

去年从 Anthropic 转投 Google DeepMind 的清华物理系特奖得主姚顺宇也站台宣传:

「Gemini 不仅是一个优秀的模型,而且更好的模型正以不可阻挡的方式到来。」

姚顺宇评价
姚顺宇评价

我的看法

Gemini 3.1 Pro 这次更新,确实很猛。

性能翻倍,价格不变。

而且还是预览版,正式版可能更强。

如果你在用 AI 模型:

  1. 需要高性能
  2. 预算有限
  3. 不太依赖工具调用

那 Gemini 3.1 Pro 是个很好的选择。

但如果你:

  1. 需要频繁调用工具
  2. 对多模态要求高

那可能还是 Opus 4.6 更合适。

总的来说,这次 Google 确实拿出了诚意。

AI 大战,越来越激烈了。

国内怎么用?

如果你在国内,想体验 Gemini 3.1 Pro,可以用镜像站。

注册账号,限时免费,无需魔法上网。

镜像站地址:https://geminiai.asia/list/#/home

Gemini 镜像站
Gemini 镜像站

注册后即可使用,支持所有 Gemini 模型。


相关链接

  • Gemini 镜像站(注册账号,限时免费):https://geminiai.asia/list/#/home
  • Gemini 3.1 Pro 官方博客
  • AI Studio

Google Gemini 3。1 Pro 预览版发布:ARC-AGI-2 性能翻倍,成本低于 Opus 4。6

Google 最新推出的 Gemini 3.1 Pro 在 ARC-AGI-2、GPQA Diamond 等多个核心基准测试中表现超越 Anthropic Opus 4.6,且 API 使用成本仅为后者一半。该模型目前已推出预览版,适用于寻求高性价比 AI 解决方案的开发者与企业...