2025年5月7日星期三

Gemini 2。5 Pro暴揍Claude 3。7 Sonnet,登顶编程最强模型,国内可直接使用!

谷歌王者归来?Gemini 2.5 Pro 登顶编程最强模型,国内可直接使用!

谷歌王者归来?Gemini 2.5 Pro 登顶编程最强模型,国内可直接使用!

谷歌高调宣布,Gemini 2.5 Pro 已取代 Claude 3.7 Sonnet,成为 Aider Polyglot(真实世界编码)测评中性能最高的模型!

Gemini 2.5 Pro Aider Polyglot Benchmark图1:Gemini 2.5 Pro 在 Aider Polyglot (真实世界编码) 测评中性能登顶

这是谷歌有史以来最智能的推理模型 gemini-2.5-pro-exp-03-25,专为复杂任务打造,推理能力强大。

Gemini 2.5 Pro Model Information图2:Gemini 2.5 Pro 模型选择界面

Gemini 2.5 Pro Model Details图3:Gemini 2.5 Pro 模型特性介绍

如何使用?国内直接体验!

ChatGPT镜像网站已集成 Gemini 2.5 Pro使用地址:https://agi.maynor1024.live/

新用户福利: 添加微信:coder-maynor,备注"ai体验",即可免费体验 Gemini 2.5 Pro 2天时长。


编程能力测试:Arena-Hard 小球弹跳

该测试用于评估大模型在推理、计算、代码等多个方面的综合能力。测试指令:

使用 p5.js创建 10 个彩色球在多个旋转六边形内弹跳的效果,旋转速度较快,考虑重力,弹性,摩擦和碰撞,符合物理自然规律。

先看下效果:

p5.js Bouncing Balls Animation by Gemini 2.5 Pro图5:Gemini 2.5 Pro 生成的 p5.js 小球弹跳动画效果

Gemini 2.5 Pro 在小球碰撞测试中表现出色,小球色彩鲜明,运动轨迹完全符合物理自然规律。可以特别关注左侧第一个六边形内小球的细节。

Gemini 2.5 Pro Code Output for Bouncing Balls图6:Gemini 2.5 Pro 生成的部分 p5.js 代码

为了提高阅读体验,此处略去生成的具体代码。有需要的小伙伴可以自行测试,小球旋转测试地址:https://editor.p5js.org。

p5.js Editor Interface图7:p5.js 在线编辑器界面 (示例)

p5.js Editor with Code图8:p5.js 编辑器中运行代码 (示例)


编程能力测试:经典算法题

题目要求:

请根据下面描述、用Java解答此题,类名为OdTest,通过控制台输入,比如Java的Scanner,(控制台输入输出时,不要有其他文字描述,只有测试用例即可),为代码添加详细的中文注释,
通过测试用例进行代码测试,如果不正确,请修改Java代码并优化。
根据输入输出描述,给出5个测试用例,通过Java代码测试,验证代码和测试用例的正确性,给出测试用例的解释说明。
输出Java代码的解题思路,采用了什么数据结构和算法,为什么采用这些数据结构和算法。
将正确的Java代码转为Python、JavaScript、C、C++写法,每行代码添加详细的中文注释,再输出
通过下面的测试用例对转化后的Python、JavaScript、C、C++代码进行测试,如果与输入输出不符,修正代码,重新测试。

这是一道复杂度很高的编程题,包含了完整图构建、最短路径计算、Floyd-Warshall 算法、排列生成算法等多个复杂的算法,旨在测试编程人员的数据结构与算法的掌握程度。

Gemini 2.5 Pro 完美地解答了此题,包含了Java代码、测试用例、解题思路、算法选择、其他语言的代码转换,并通过用例进行了代码测试,充分考虑了测试用例的边界条件,有效提高了算法的通过率。


推理能力测试:钻石难题 (最优停止问题)

任务描述: 解决一个经典的智力推理题(最优停止问题变种)。

提示词 (Prompt):

一楼到十楼的每层电梯门口都放着一颗钻石,钻石大小不一。你乘坐电梯从一楼到十楼,每层楼电梯门都会打开一次,只能拿一次钻石。问怎么才能拿到最大的一颗?

Gemini 2.5 Pro 的分析与解答:


这是一个经典的"秘书问题"(Secretary Problem)或称为"最优停止问题"(Optimal Stopping Problem)的变种。目标是在信息不完全的情况下,最大化选中最大钻石的概率。

没有一种方法能保证你一定能拿到最大的钻石,因为你无法预知未来的钻石大小。但是,有一种策略可以最大化你选中最大钻石的概率

最优策略如下:

  1. 观察阶段: 先观察前面几层楼的钻石,但绝对不选。具体观察几层呢?对于总共N=10层楼的情况,最佳的观察数量大约是 N / e (e 是自然对数的底数,约等于 2.718)。
    • 计算:10 / 2.718 ≈ 3.68
    • 取整:所以,你需要观察 前 3 层(或者有时也用 4 层,概率差别不大,但通常 N/e 向下取整更常用或严格计算后得出 3 层)。
  2. 决策阶段:
    • 记住你在前 3 层观察到的钻石中,最大那一颗的大小(我们称之为"当前最大")。
    • 从第 4 层开始,继续上楼。
    • 一旦你遇到第一个比你在前 3 层看到的"当前最大"还要大的钻石时,立刻选择它
    • 如果你到达了最后一层(第 10 层)还没有做出选择(意味着第 4 层到第 9 层的钻石都没有超过前 3 层的最大值),那么你必须选择第 10 层的钻石,无论它多大。

为什么这个策略最优?

  • 避免过早选择: 跳过前几层可以让你对钻石大小的分布有一个初步的了解,避免因为第一颗看起来"还不错"就选了,结果后面有更大的。
  • 避免过晚选择: 如果观察期太长(比如观察前 9 层),那么真正最大的钻石很可能就在观察期内被错过了,导致你永远无法选中它。
  • 平衡探索与利用: 这个策略在前 3 层进行"探索"(收集信息),然后在后 7 层进行"利用"(根据收集到的信息做决策),达到了一个概率上的平衡点。

总结步骤:

  1. 前 3 层(1楼、2楼、3楼)只看不选,记住这三颗钻石里最大的那颗的大小。
  2. 从第 4 层开始,选遇到的第一颗比"第1-3层最大那颗"还要大的钻石。
  3. 如果到第 10 层都没选,就选第 10 层的那颗。

遵循这个策略,你选中最大钻石的概率大约是 **1/e (约 37%)**,这是理论上能达到的最高概率。

结果截图 :image-20250427172256774

评价:****一次性完美解答,不仅给出了最优策略 (观察前3层,选择之后第一个超过最大值的),还清晰解释了背后的数学原理(秘书问题,1/e 规则),逻辑严谨,表达清晰。


推理能力测试:经典逻辑推理题

让我们来测试一下,问一个之前让诸多大模型"吃瘪"的经典问题:9.11 和 9.8 谁更大?

Gemini 2.5 Pro Numerical Comparison Test图4:Gemini 2.5 Pro 准确判断 9.11 大于 9.8

另一个逻辑推理题: (此处未提供原题,但展示了模型的回答)答案是9月1日。

Gemini 2.5 Pro Logic Puzzle Analysis Part 1图9:Gemini 2.5 Pro 对逻辑推理题的分析过程 (上半部分)

Gemini 2.5 Pro Logic Puzzle Analysis Part 2 and Answer图10:Gemini 2.5 Pro 对逻辑推理题的分析过程 (下半部分) 及最终答案

Gemini 2.5 Pro 展开头脑风暴,分析了这道难度颇大的推理题,最终给出答案"张老师的生日是 9月1日",与题目答案完全一致。


写作能力测试:古风穿越小说

任务描述: 创作一段古风穿越小说的开头。

**提示词:**写一段古风穿越小说image-20250427160638764

Gemini 2.5 Pro 的创作:

好的,这是一段古风穿越小说的开头,希望能满足你的要求:

第一章 镜花水月

现代都市的霓虹,映照着沈薇略带疲惫的脸庞。作为历史系的研究生,她对古物有着近乎痴迷的热爱。此刻,她正站在博物馆幽暗的一角,凝视着展柜里一面锈迹斑驳的铜镜。镜面上刻着繁复而古老的花纹,据说来自一个早已湮没的王朝。

鬼使神差地,沈薇伸出手,指尖轻轻触碰到了冰凉的玻璃罩。就在那一刹那,铜镜上的纹路仿佛活了过来,流转起幽幽微光。一股强大的吸力传来,沈薇只觉得天旋地转,眼前一黑,便失去了意识。

不知过了多久,意识如同沉入深海的浮木,缓缓上浮。

"唔……"沈薇低吟一声,眼皮沉重地掀开一条缝。

首先映入眼帘的,不是熟悉的博物馆天花板,而是精致繁复的木质雕花帐顶,轻纱低垂,朦胧中透着一股沉静的古意。空气中弥漫着淡淡的、说不清是兰还是麝的香气,清雅却又带着一丝不易察觉的压抑。

她猛地坐起身,环顾四周。

这是一间古色古香的房间,布置得极为雅致。窗外是摇曳的竹影,阳光透过雕花的窗棂,在地上洒下斑驳的光点。身上盖着的,是柔软顺滑的锦被,触感细腻。而她自己身上穿着的,竟是一件广袖流仙裙般的丝绸中衣,衣料轻薄,绣着淡雅的缠枝莲纹。

"这不是我的衣服……"沈薇低头看着自己纤细白皙的手,这双手也显得有些陌生,指甲修剪得圆润,透着健康的粉色,但绝不是她那双因为长期翻阅古籍、敲打键盘而略显粗糙的手。

结果截图:image-20250427160806202

评价: 文笔流畅自然,几乎没有 AI 味,氛围营造、细节描写、情节引入都相当到位,与优秀的人类写手相比也丝毫不差,甚至优于某些其他顶尖模型(如文中提到的 Claude)。


平台服务亮点 (https://agi.maynor1024.live/)

特色服务
详细说明
一、纯原版体验
✅️ 提供官网原生页面体验 
 ✅️ 基于真实的 Team 会员账号
二、强大技术支持
✔️ 支持满血 ChatGPT-4o(支持最新发布的GPT原生文生图)、o4-mini(支持最新的Deep Research深入研究)、o4-mini-higho3
 ✔️ 支持满血 DeepSeek R1Claude 3.7 Sonnent、马斯克 Grok 3Gemini 2.5 Pro
 ✔️ 无需魔法,国内直接访问 
 ✔️ 个人独享,保障隐私 
 ✔️ 推荐使用谷歌浏览器访问
三、GPTs与插件
✔️ 支持所有 GPTs
 ✔️ 支持自定义插件,可创建自己的ChatGPT插件,或使用朋友分享的自定义插件。 
 ✔️ 例如:最强编程插件 Code Copilot、AI绘画插件 DALL-E、论文专属 Consensus、搜索文献插件 Scholar GPT 等。

ChatGPT及多模型使用地址:**https://agi.maynor1024.live/**

Platform Model Selection Interface图11:平台支持多种先进AI模型选择

Platform ChatGPT-4o Interface图12:平台提供 ChatGPT-4o 使用界面

支持 Claude 3.7 Max (Sonnent) 使用Platform Claude 3.7 Max Interface图13:平台支持 Claude 3.7 Max (Sonnent) 模型

支持 Super Grok 使用Platform Super Grok Interface图14:平台支持 Super Grok 模型

Gemini2.5Pro 及其他模型使用地址:**https://agi.maynor1024.live/**

Platform Model Selection Interface
Platform Model Selection Interface

添加客服微信:coder-maynor 免费领取2天体验时长。


没有评论:

发表评论

谷歌研究院联手牛津大学推出Bolt3D!7秒内单GPU生成高保真3D,推理成本直降300倍!

最新论文解读系列论文名:Bolt3D: Generating 3D Scenes in Seconds论文链 最新论文解读系列 论文名:Bolt3D: Generating 3D Scenes in Seconds 论文链接: https://arxiv.org/pdf/25...