AI I024: Gemini 2。5 Pro暴揍Claude 3。7 Sonnet，登顶编程最强模型，国内可直接使用！

2025年5月7日星期三

Gemini 2。5 Pro暴揍Claude 3。7 Sonnet，登顶编程最强模型，国内可直接使用！

谷歌王者归来？Gemini 2.5 Pro 登顶编程最强模型，国内可直接使用！

谷歌高调宣布，Gemini 2.5 Pro 已取代 Claude 3.7 Sonnet，成为 Aider Polyglot（真实世界编码）测评中性能最高的模型！

Gemini 2.5 Pro Aider Polyglot Benchmark 图1：Gemini 2.5 Pro 在 Aider Polyglot (真实世界编码) 测评中性能登顶

这是谷歌有史以来最智能的推理模型 gemini-2.5-pro-exp-03-25，专为复杂任务打造，推理能力强大。

Gemini 2.5 Pro Model Information 图2：Gemini 2.5 Pro 模型选择界面

Gemini 2.5 Pro Model Details 图3：Gemini 2.5 Pro 模型特性介绍

如何使用？国内直接体验！

ChatGPT镜像网站已集成 Gemini 2.5 Pro。使用地址：https://agi.maynor1024.live/

新用户福利： 添加微信：coder-maynor，备注"ai体验"，即可免费体验 Gemini 2.5 Pro 2天时长。

编程能力测试：Arena-Hard 小球弹跳

该测试用于评估大模型在推理、计算、代码等多个方面的综合能力。测试指令：

使用 p5.js创建 10 个彩色球在多个旋转六边形内弹跳的效果，旋转速度较快，考虑重力，弹性，摩擦和碰撞，符合物理自然规律。

先看下效果：

p5.js Bouncing Balls Animation by Gemini 2.5 Pro 图5：Gemini 2.5 Pro 生成的 p5.js 小球弹跳动画效果

Gemini 2.5 Pro 在小球碰撞测试中表现出色，小球色彩鲜明，运动轨迹完全符合物理自然规律。可以特别关注左侧第一个六边形内小球的细节。

Gemini 2.5 Pro Code Output for Bouncing Balls 图6：Gemini 2.5 Pro 生成的部分 p5.js 代码

为了提高阅读体验，此处略去生成的具体代码。有需要的小伙伴可以自行测试，小球旋转测试地址：https://editor.p5js.org。

p5.js Editor Interface 图7：p5.js 在线编辑器界面 (示例)

p5.js Editor with Code 图8：p5.js 编辑器中运行代码 (示例)

编程能力测试：经典算法题

题目要求：

请根据下面描述、用Java解答此题，类名为OdTest，通过控制台输入，比如Java的Scanner，（控制台输入输出时，不要有其他文字描述，只有测试用例即可），为代码添加详细的中文注释，
通过测试用例进行代码测试，如果不正确，请修改Java代码并优化。
根据输入输出描述，给出5个测试用例，通过Java代码测试，验证代码和测试用例的正确性，给出测试用例的解释说明。
输出Java代码的解题思路，采用了什么数据结构和算法，为什么采用这些数据结构和算法。
将正确的Java代码转为Python、JavaScript、C、C++写法，每行代码添加详细的中文注释，再输出
通过下面的测试用例对转化后的Python、JavaScript、C、C++代码进行测试，如果与输入输出不符，修正代码，重新测试。

这是一道复杂度很高的编程题，包含了完整图构建、最短路径计算、Floyd-Warshall 算法、排列生成算法等多个复杂的算法，旨在测试编程人员的数据结构与算法的掌握程度。

Gemini 2.5 Pro 完美地解答了此题，包含了Java代码、测试用例、解题思路、算法选择、其他语言的代码转换，并通过用例进行了代码测试，充分考虑了测试用例的边界条件，有效提高了算法的通过率。

推理能力测试：钻石难题 (最优停止问题)

任务描述： 解决一个经典的智力推理题（最优停止问题变种）。

提示词 (Prompt):

一楼到十楼的每层电梯门口都放着一颗钻石，钻石大小不一。你乘坐电梯从一楼到十楼，每层楼电梯门都会打开一次，只能拿一次钻石。问怎么才能拿到最大的一颗？

Gemini 2.5 Pro 的分析与解答:

这是一个经典的"秘书问题"（Secretary Problem）或称为"最优停止问题"（Optimal Stopping Problem）的变种。目标是在信息不完全的情况下，最大化选中最大钻石的概率。

没有一种方法能保证你一定能拿到最大的钻石，因为你无法预知未来的钻石大小。但是，有一种策略可以最大化你选中最大钻石的概率。

最优策略如下：

观察阶段： 先观察前面几层楼的钻石，但绝对不选。具体观察几层呢？对于总共N=10层楼的情况，最佳的观察数量大约是 N / e （e 是自然对数的底数，约等于 2.718）。

计算：10 / 2.718 ≈ 3.68
取整：所以，你需要观察 前 3 层（或者有时也用 4 层，概率差别不大，但通常 N/e 向下取整更常用或严格计算后得出 3 层）。

决策阶段：

记住你在前 3 层观察到的钻石中，最大那一颗的大小（我们称之为"当前最大"）。
从第 4 层开始，继续上楼。
一旦你遇到第一个比你在前 3 层看到的"当前最大"还要大的钻石时，立刻选择它。
如果你到达了最后一层（第 10 层）还没有做出选择（意味着第 4 层到第 9 层的钻石都没有超过前 3 层的最大值），那么你必须选择第 10 层的钻石，无论它多大。

为什么这个策略最优？

避免过早选择： 跳过前几层可以让你对钻石大小的分布有一个初步的了解，避免因为第一颗看起来"还不错"就选了，结果后面有更大的。
避免过晚选择： 如果观察期太长（比如观察前 9 层），那么真正最大的钻石很可能就在观察期内被错过了，导致你永远无法选中它。
平衡探索与利用： 这个策略在前 3 层进行"探索"（收集信息），然后在后 7 层进行"利用"（根据收集到的信息做决策），达到了一个概率上的平衡点。

总结步骤：

前 3 层（1楼、2楼、3楼）只看不选，记住这三颗钻石里最大的那颗的大小。
从第 4 层开始，选遇到的第一颗比"第1-3层最大那颗"还要大的钻石。
如果到第 10 层都没选，就选第 10 层的那颗。

遵循这个策略，你选中最大钻石的概率大约是 **1/e (约 37%)**，这是理论上能达到的最高概率。

结果截图 :

评价：****一次性完美解答，不仅给出了最优策略 (观察前3层，选择之后第一个超过最大值的)，还清晰解释了背后的数学原理（秘书问题，1/e 规则），逻辑严谨，表达清晰。

推理能力测试：经典逻辑推理题

让我们来测试一下，问一个之前让诸多大模型"吃瘪"的经典问题：9.11 和 9.8 谁更大？

Gemini 2.5 Pro Numerical Comparison Test 图4：Gemini 2.5 Pro 准确判断 9.11 大于 9.8

另一个逻辑推理题： （此处未提供原题，但展示了模型的回答）答案是9月1日。

Gemini 2.5 Pro Logic Puzzle Analysis Part 1 图9：Gemini 2.5 Pro 对逻辑推理题的分析过程 (上半部分)

Gemini 2.5 Pro Logic Puzzle Analysis Part 2 and Answer 图10：Gemini 2.5 Pro 对逻辑推理题的分析过程 (下半部分) 及最终答案

Gemini 2.5 Pro 展开头脑风暴，分析了这道难度颇大的推理题，最终给出答案"张老师的生日是 9月1日"，与题目答案完全一致。

写作能力测试：古风穿越小说

任务描述： 创作一段古风穿越小说的开头。

**提示词:**写一段古风穿越小说

Gemini 2.5 Pro 的创作:

好的，这是一段古风穿越小说的开头，希望能满足你的要求：

第一章镜花水月

现代都市的霓虹，映照着沈薇略带疲惫的脸庞。作为历史系的研究生，她对古物有着近乎痴迷的热爱。此刻，她正站在博物馆幽暗的一角，凝视着展柜里一面锈迹斑驳的铜镜。镜面上刻着繁复而古老的花纹，据说来自一个早已湮没的王朝。

鬼使神差地，沈薇伸出手，指尖轻轻触碰到了冰凉的玻璃罩。就在那一刹那，铜镜上的纹路仿佛活了过来，流转起幽幽微光。一股强大的吸力传来，沈薇只觉得天旋地转，眼前一黑，便失去了意识。

不知过了多久，意识如同沉入深海的浮木，缓缓上浮。

"唔……"沈薇低吟一声，眼皮沉重地掀开一条缝。

首先映入眼帘的，不是熟悉的博物馆天花板，而是精致繁复的木质雕花帐顶，轻纱低垂，朦胧中透着一股沉静的古意。空气中弥漫着淡淡的、说不清是兰还是麝的香气，清雅却又带着一丝不易察觉的压抑。

她猛地坐起身，环顾四周。

这是一间古色古香的房间，布置得极为雅致。窗外是摇曳的竹影，阳光透过雕花的窗棂，在地上洒下斑驳的光点。身上盖着的，是柔软顺滑的锦被，触感细腻。而她自己身上穿着的，竟是一件广袖流仙裙般的丝绸中衣，衣料轻薄，绣着淡雅的缠枝莲纹。

"这不是我的衣服……"沈薇低头看着自己纤细白皙的手，这双手也显得有些陌生，指甲修剪得圆润，透着健康的粉色，但绝不是她那双因为长期翻阅古籍、敲打键盘而略显粗糙的手。

结果截图:

评价： 文笔流畅自然，几乎没有 AI 味，氛围营造、细节描写、情节引入都相当到位，与优秀的人类写手相比也丝毫不差，甚至优于某些其他顶尖模型（如文中提到的 Claude）。

平台服务亮点 (https://agi.maynor1024.live/)

特色服务	详细说明
一、纯原版体验	✅️ 提供官网原生页面体验 ✅️ 基于真实的 Team 会员账号
二、强大技术支持	✔️ 支持满血 ChatGPT-4o（支持最新发布的GPT原生文生图）、o4-mini（支持最新的Deep Research深入研究）、o4-mini-high、o3 ✔️ 支持满血 DeepSeek R1、Claude 3.7 Sonnent、马斯克 Grok 3、Gemini 2.5 Pro ✔️ 无需魔法，国内直接访问 ✔️ 个人独享，保障隐私 ✔️ 推荐使用谷歌浏览器访问
三、GPTs与插件	✔️ 支持所有 GPTs ✔️ 支持自定义插件，可创建自己的ChatGPT插件，或使用朋友分享的自定义插件。 ✔️ 例如：最强编程插件 Code Copilot、AI绘画插件 DALL-E、论文专属 Consensus、搜索文献插件 Scholar GPT 等。