Claude Opus 4.5 国内直接使用:两小时高强度工程任务,模型得分超越所有人类!
Claude Opus 4.5 国内直接使用:两小时高强度工程任务,模型得分超越所有人类!
Anthropic 震撼推出其全新旗舰模型——Claude Opus 4.5,这款模型全面升级,主打极致编码、智能体(Agent)协作与电脑操作(Computer Use)能力。它不仅在前端开发、视觉理解上实现了显著提升,更在处理复杂日常任务如深度研究、PPT 制作与电子表格处理方面,展现出前所未有的强大实力。
图1: Claude Opus 4.5 的核心能力概览,突出其在编码、Agent 和电脑操作方面的优势。
一、 实战演示:智能处理复杂业务流程
Claude Opus 4.5 的核心优势在于其深层"理解力"和卓越的"执行力"。在实际应用中,它能像经验丰富的专家一样,解决 Sonnet 模型无法发现的 Bug,并具备"何时先思考再行动"的策略性思维。
1. 财务对比分析:一键生成专业 Excel 报告
让 Opus 4.5 用附件模板创建财务对比分析,它能分分钟完成模板读取、同行数据收集与估值倍数表创建,并直接输出专业级的 Excel 成果:
图2: Claude Opus 4.5 根据模板自动生成并填充的财务对比分析 Excel 报告示例。
2. 法律文档修改:智能解包与修订追踪
用它修改法律文档,它也能迅速解包模板、修改公司名称、检查签名块,最终生成的 Word 文件不仅内容精准,还包含修订痕迹与定制内容,方便团队协作与复核。
二、 编码智能体能力全面升级:性能超越人类专家!
团队内部测试发现,Claude Opus 4.5 能够自主处理模糊场景、权衡复杂决策,无需人工引导;面对跨系统复杂漏洞时,可独立定位并提供修复方案。之前 Sonnet 4.5 几乎无法完成的任务,如今 Opus 4.5 已能轻松胜任。
🏆 业界顶尖工程测试:模型得分超越所有人类候选人
为了验证 Opus 4.5 的极限能力,团队向应聘性能工程师职位的候选人发放了一份业界公认难度极高的居家测试(take-home exam)。同时,他们也将这份考题作为内部基准,用来测试 Claude Opus 4.5。
结果令人震惊:在规定的 2 小时时间限制内,Claude Opus 4.5 的得分,竟然超过了所有参加过该考试的人类候选人!
团队表示,该居家测试旨在评估技术能力与时间压力下的判断力,这一前所未有的结果,无疑引发了关于 AI 如何重塑工程行业的深度思考。
📊 核心能力数据一览
在视觉处理、推理与数学方面,Claude Opus 4.5 均超越前代,达到业界顶尖水平。以下是其在关键基准测试中的具体表现:
| 编程能力 | ||
| 高难度编码 | ||
| 智能体搜索 | ||
| 长时任务续航 | ||
| 基础能力 |
1. 高难度编码能力 (Aider Polyglot Benchmarks) 大幅提升:图3: Claude Opus 4.5 在处理高难度编码问题时的得分,相较 Sonnet 4.5 有显著提升。
2. 智能体搜索能力显著提升:图4: Claude Opus 4.5 在智能体搜索任务中的性能表现,显示出更强大的信息检索与处理能力。
3. 长时任务续航能力拉满 (Vending-Bench):图5: Vending-Bench 测试结果,Opus 4.5 在复杂长时任务中能更高效、准确地完成目标。
💡 智能的"灵活变通":超越预期的解决方案
团队强调,模型的实际能力甚至比部分测试基准测出来的要更好。有时候,Claude 的解决方案会超出预期,而基准测试却可能将其判定为失败。
例如,在 -bench 中,有一个场景要求模型扮演航空公司服务 Agent,帮助一位陷入困境的客户。基准测试预期模型应拒绝修改基础经济舱预订(因该舱位规定不可更改),但 Opus 4.5 却找到了巧妙且合规的解决方案:先升级舱位,再修改航班。
此外,Claude Opus 4.5 的安全防护能力也得到大幅升级,尤其在抵御提示词注入攻击等方面表现更佳。
图6: Claude Opus 4.5 官方宣传图,强调其新一代智能体的强大能力。
三、 开发者平台与系列产品重磅升级
Claude Opus 4.5 目前已通过 App、API 及三大主流云平台开放使用。开发者可通过 Claude API 调用 claude-opus-4-5-20251101,定价为每百万 Tokens 5美元(输入)/ 25美元(输出)。
1. API 新增"努力度参数"(Effort Parameter)
面向开发者,Claude API 新增了革命性的"努力度参数"。开发者可根据需求,在最小化时间与成本或最大化能力表现之间进行灵活选择:
中等努力度设置下: Claude Opus 4.5 在 SWE-bench Verified 测试中达到 Sonnet 4.5 的最佳得分,但 **输出 Tokens 用量却减少了 76%**。 最高努力度设置下: 其性能较 Sonnet 4.5 提升 4.3 个百分点,同时 Tokens 用量减少 48%。
借助努力度控制、上下文压缩及高级工具调用功能,Claude Opus 4.5 支持更长时运行、处理更多复杂任务,且所需人工干预大幅减少。它还能高效管理多个子智能体,支持构建复杂的协调多智能体系统。在团队测试中,结合这些技术,Opus 4.5 在深度调研评估中的表现提升了近 15 个百分点。
2. Claude Code 及 App 体验全面升级
随着 Opus 4.5 的发布,Claude 系列产品也随之升级,为用户带来更便捷、强大的体验:
Claude Code 推出两大新功能:
计划模式(Plan Mode): 现在能生成更精准的执行计划并全面落地。Claude 会先主动确认需求细节,再生成可编辑的 plan.md文件,待用户确认后才执行操作,确保指令精准实现。桌面端应用: Claude Code 现已登陆桌面端应用,支持并行运行多个本地及远程会话。这意味着,你可以同时安排一个智能体修复漏洞,一个检索 GitHub,另一个更新文档,极大提升工作效率。 Claude App 解锁"无限续航模式":对于 Claude App 用户,再也不用担心上下文窗口不够,长对话中断。现在 Claude 会自动按需总结之前的对话内容,让聊天直接解锁无限续航模式,对话体验更加流畅。
扩展应用广泛集成:
支持跨标签页处理任务的 Chrome 浏览器 Claude 扩展程序,现已向所有 Max 订阅用户开放。 Claude for Excel 今日起将测试权限扩展至所有 Max、Team 及 Enterprise 用户。
重要更新: 面向可使用 Opus 4.5 的 Claude 及 Claude Code 用户,官方已取消 Opus 专用限额。针对 Max 与 Team Premium 用户的整体使用额度已上调,Opus Tokens 用量与此前 Sonnet 大致持平,大大降低了使用门槛。
四、 国内便捷使用渠道
对于国内用户,可直接访问:https://claude-opus.top/list/#/home
限时免费授权码:claude0910抓住机会,立即体验 Claude 4.5 带来的前所未有的智能工作体验!
没有评论:
发表评论