2025年5月23日星期五

震撼发布: 史上最强AI编程模型 + 顶尖AI Agent基础设施!200美元Claude 4 Max套餐国内直接使用!

震撼发布:Claude 4 —— 史上最强AI编程模型 + 顶尖AI Agent基础设施!


震撼发布:Claude 4 —— 史上最强AI编程模型 + 顶尖AI Agent基础设施!200美元Claude 4 Max套餐国内直接使用!

今天凌晨1点,著名大模型平台 Anthropic 召开了其首届开发者大会,并隆重发布了最新一代大模型——Claude 4

image-20250523073854456
image-20250523073854456

Claude 4 系列包含两大核心模型:Opus 4 和 Sonnet 4

  • Opus 4:定位为全球顶级编程模型,在处理复杂且超长时间的推理任务方面表现卓越,尤其在 Agent 领域能力超群。根据 Rakuten 的测试数据,基于 Opus 4 构建的编程智能体能够独立稳定连续工作长达7小时,刷新了此前由 OpenAI 创下的记录。
  • Sonnet 4:作为 Sonnet 3.7 的强大迭代版本,同样在编程领域展现出非凡实力。在权威的 SWE-bench 测试中,Sonnet 4 取得了 72.7% 的惊人成绩,超越了包括 OpenAI 最新发布的 Codex-1、o3 在内的众多前沿模型。
b89e183df97bd244e4ee6d5b7145e7bc
b89e183df97bd244e4ee6d5b7145e7bc

创新的混合推理与思考摘要

Opus 4 和 Sonnet 4 作为混合推理模型,具备两种独特的思考模式:

  1. 标准思考模式:专为快速响应设计,非常适合处理那些对时间敏感或需要即时反馈的任务。
  2. 扩展思考模式:允许模型投入更多时间进行深度推理,通过更周全的思考生成更为精确、全面的答案。

这种双模式设计旨在满足不同场景下的多样化需求,用户可以根据具体任务的复杂性和对响应速度的要求,在两种模式之间灵活切换。

值得一提的是,这两款模型还新增了"思考摘要"功能。当模型的思考过程过长时,会启动一个额外的小型模型来对思考过程进行精炼总结。Anthropic 指出,这种总结机制在实际应用中非常高效,因为仅有约5%的思考过程会触发该总结机制,在绝大多数情况下,用户仍然能够查阅到完整的思考脉络。

对于那些需要完整思考过程、不希望进行任何总结的开发者,Anthropic 也贴心地提供了开发者模式,在此模式下,开发者可以获取未经删减的、完整的思考全过程。

扩展思考模式在多种复杂场景下均展现出其独特优势。例如,在处理复杂的编程任务时,模型能够利用扩展思考模式深入剖析代码逻辑,从而更有效地发现潜在错误或提出优化建议。这种深度的思考能力有助于开发者更好地理解代码的结构和功能,进而显著提升代码质量和开发效率。

强大的配套功能与开发者生态

除了模型性能的巨大飞跃,Anthropic 还宣布了一系列与之配套的强大新功能:

  • 扩展思考与工具使用:Opus 4 和 Sonnet 4 能够在扩展思考过程中无缝调用工具(例如进行网络搜索),实现推理与工具使用的交替进行,从而大幅提升回答的质量。
Benchmark table comparing Opus 4 and Sonnet 4 to other LLM
Benchmark table comparing Opus 4 and Sonnet 4 to other LLM
  • 并行工具执行:新模型具备了并行执行多个工具的能力,能够更精准地遵循复杂指令。

  • 增强的记忆能力:当开发者授予模型访问本地文件的权限时,模型能够显著提升记忆能力,高效提取并保存关键信息,以维持对话的连续性并积累"默会知识"。

  • Claude Code 全面开放:现在,Claude Code 正式向所有开发者开放。它支持通过 GitHub Actions 执行后台任务,并且与 VS Code 和 JetBrains 等主流开发工具实现了原生集成,可以直接在用户的文件中实时显示编辑内容,带来无缝的协作编程新体验。

  • Anthropic API 新增功能:Anthropic API 也迎来了四项重要更新,包括:

    这些新功能将极大地助力开发者构建更为强大和智能的 AI Agent。

    • 代码执行工具 (Code Execution Tools)
    • MCP 连接器 (MCP Connectors)
    • 文件 API (Files API)
    • 长达一小时的提示缓存能力 (Ability to cache prompts for up to an hour)

五、实际模型能力横向测评

为了直观展现 Claude 4 Sonnet 的强大实力,我使用以下提示词,分别对 Claude 4 SonnetClaude 3.7 Sonnet 以及 Gemini 2.5 Pro 进行了测试:

我想开发一个{类似小宇宙的播客app},现在需要输出高保真的原型图,请通过以下方式帮我完成所有界面的原型设计,并确保这些原型界面可以直接用于开发:1、用户体验分析:先分析这个 App 的主要功能和用户需求,确定核心交互逻辑。2、产品界面规划:作为产品经理,定义关键界面,确保信息架构合理。3、高保真 UI 设计:作为 UI 设计师,设计贴近真实 iOS/Android 设计规范的界面,使用现代化的 UI 元素,使其具有良好的视觉体验。4、HTML 原型实现:使用 HTML + Tailwind CSS(或 Bootstrap)生成所有原型界面,并使用 FontAwesome(或其他开源 UI 组件)让界面更加精美、接近真实的 App 设计。拆分代码文件,保持结构清晰:5、每个界面应作为独立的 HTML 文件存放,例如 home.html、profile.html、settings.html 等。- index.html 作为主入口,不直接写入所有界面的 HTML 代码,而是使用 iframe 的方式嵌入这些 HTML 片段,并将所有页面直接平铺展示在 index 页面中,而不是跳转链接。- 真实感增强:  - 界面尺寸应模拟 iPhone 15 Pro,并让界面圆角化,使其更像真实的手机界面。  - 使用真实的 UI 图片,而非占位符图片(可从 Unsplash、Pexels、Apple 官方 UI 资源中选择)。  - 添加顶部状态栏(模拟 iOS 状态栏),并包含 App 导航栏(类似 iOS 底部 Tab Bar)。请按照以上要求生成完整的 HTML 代码,并确保其可用于实际开发。

测试结果如下:

Claude 4 Sonnet👇

image-20250523073955743
image-20250523073955743

Claude 3.7 Sonnet👇

image-20250523074008854
image-20250523074008854

Gemini 2.5 Pro👇

image-20250523074210318
image-20250523074210318

测试结论:差距显著,高下立判!

  • Gemini 2.5 Pro:虽然在 LMArena 等部分编程能力排行榜上表现尚可,且在处理复杂长代码时偶尔有亮点,但其对指令的理解和遵循能力相较于 Claude 系列仍有明显差距。此外,其视觉审美也较为逊色,常常出现一些令人费解的设计。
  • Claude 3.7 Sonnet:表现已经相当出色。
  • Claude 4 Sonnet:则完全达到了惊艳的水平!相较于 3.7 版本,Claude 4 Sonnet 生成的原型在细节内容上更为丰富,例如区分了已收听和未收听状态的红点提示、订阅节目与收听节目的汇总信息等。更令人惊喜的是,其生成的播放器页面封面图甚至是可以旋转的(遗憾的是,这一点在静态图片上无法完全展现)。

关于 Claude Opus 4,我也进行了一些初步测试。但在生成几次之后,遇到了一些模型访问次数的限制,似乎目前 Opus 的服务器资源相对紧张。然而,从其评分以及我有限的体验来看,在处理常规编程任务时,其表现与 Sonnet 版本并无显著差异。

国内如何快速上手?

访问地址:https://agi.maynor1024.live/list/#/

image-20250523074627567
image-20250523074627567

限时免费授权码: claudefree05201

零成本即刻体验 Claude 4 的强大功能!

额外福利:超值 Max 套餐

现在更有价值 $200 的 Max 套餐虚位以待!尊享更长上下文窗口持续高性能体验,告别卡顿,智能不打折!

image-20250416164232764
image-20250416164232764


没有评论:

发表评论

154W,确实可以封神了!

5 月 14 日,国家科技部、发展改革委、财政部等 7 部门联合印发 《 加快构建科技 金融体制  有力支撑 高水平科技 自立自强的若干政策举措》 ,其中提出设立"国家创业投资引导基金"。 红利井喷下,AI 行业薪资水涨船高。 据中国基金报报道 ,某招聘平...