2025年5月23日星期五

直接甩出一手王炸,Claude 4 来了!

公众号关注 "GitHubDaily"

设为 "星标",每天带你逛 GitHub!


图片

过去一周,各大 AI 科技公司掀起了层层巨浪,从微软 Build 到 Google I/O 大会,多家巨头轮番出招,未曾停歇。

直至今日凌晨,一张沉浸已久的 "王牌" 被悄然掀开,才将本周 AI 技术盛宴带到了新高潮。

今天,Anthropic 重磅发布 Claude Opus 4 和 Claude Sonnet 4,全面超越了包括 OpenAI o3 和 Gemini 2.5 Pro 在内的所有竞争对手,成为最强的编程模型。

其中 Opus 4 连续 7 小时独立编程 的能力,震惊整个开发者社区,再次将编码、高级推理和 AI Agents,推向全新高度。

image-20250523161854829

Claude 4 横空出世

Claude Opus 4 这个被号称为 全球最强编码模型,极其擅长执行复杂、长时间运行的任务,并且在 AI 智能体工作流中表现出色。

而 Claude Sonnet 4,则是 Claude Sonnet 3.7 的重大升级版本,在保持效率的同时显著提升了编程和推理能力,同时能更精准地响应指令。

玩转ChatGPT

两个模型都具备 "混合推理" 能力,像是给 AI 装了一个 "思考开关",我们可以自由选择让模型快速回答,或者启用扩展思考模式进行更深入的逐步推理。

这种巧妙的设计就使得 AI 既能满足日常的快速问答,也能应对需要深度思考的复杂问题。

更值得注意的是,Claude 4 允许在扩展思考过程中使用工具,如网络搜索等。简单来说,就是让 AI 拥有 "边思考边查找资料" 的能力,从而获得更高质量的回答。

AI 编程能力新里程碑

我们再来看下它们在实际测试中的表现,根据官方提供的 SWE-bench 测试结果,Opus 4 和 Sonnet 4 在基础测试上分别取得 72.5% 和 72.7% 的准确率。

Claude 4 3840x2304

SWE-bench Verified: 真实软件工程任务性能基准测试。

而 Opus 4 在 Terminal-bench 中达到 43.2% 的得分,全面超越了包括 OpenAI o3 和 Gemini 2.5 Pro 在内的所有竞争对手,成为最强的编程模型。

Claude 4 2600x2118

下一代编码 Agent

此次除了模型发布之外,还有一个重磅产品:Claude Code 跟着发布,进一步完善 Anthropic 的生态,试图构造其护城河。

Claude 4 Wallpager

允许将强大的 Claude 模型能力融入到我们开发工作流中,目前已支持与 VS Code、JeBrains 集成。只需在 IDE 终端中运行 Claude Code 即可安装。

除此之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,官方还给出了一个集成到 GitHub 的示例。

可以看到,在 PR(拉取请求)中标记 Claude Code,即可回复审阅者的反馈、修复持续集成(CL)错误或修改代码。

图片

如果想要体验,可以在 Claude Code 内部运行 /inistall-github-app 即可安装使用。

这意味着开发者可以直接在自己熟悉的开发环境中与 Claude 协作,实现真正的 "结对编程" 体验。

网友实则,效果炸裂

这场激动人心的发布会,一结束各大网友们纷纷开始实测,从评价来看个个直呼:"Claude 4 太牛了"。

只用一句提示词,就能让 Claude Opus 4 生成一个可用的浏览器智能体,包括 API 和前端。

大佬惊叹:从未见过这样的事情,真的不敢相信!

image-20250523162205188

只用一句提示词,就构建了完整可玩的俄罗斯方块游戏。

网友总结说:Claude 4 在写作和编辑方面最好,编码能力与 Gemini 2.5 媲美。

image-20250523163011756

而这位网友只花了 30 秒,Claude 4 就为他制作了一个 CRM 仪表盘,直呼 "疯了"。

image-20250523163821861

还有网友利用 Claude 4 强大编码能力和网络搜索,实现了一个准确的行星轨道运动前端动态界面。

image-20250523164452751

如何体验

看到这里,我相信各位都已经蠢蠢欲试了,下面简单跟大家说下如何使用 Claude 4。

目前 Claude 4 模型已经直接上线到官网,其中 Pro、Max、Team 和 Enterprise 用户,可以体验到两款模型及扩展思考功能。

值得一提的是,Claude Sonnet 4 面向所有免费用户开放使用,不过有使用次数限制。

image-20250523170026918

另外,开发者也可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 调用。

而这次 Claude 4 的定价与之前的 Opus 和 Sonnet 模型保持一致:

  • Opus 4 每百万 Token 为 15 美元(输入)/75 美元(输出)

  • Sonnet 4 每百万 Token 为 3 美元(输入)/15 美元(输出)

大家可以根据各自情况,自由选择使用体验 Claude 4。

写在最后

Claude 4 的发布标志着 AI 编程能力迈向了新的里程碑,从混合推理到扩展思考,再到与开发环境的无缝集成。

它不仅在编程基准测试中树立了新标杆,更重要的是重新定义了 AI Agent 的能力边界。

当 AI 可以连续工作 7 小时完成复杂任务时,我们看到了人工智能从 "辅助工具" 向 "协作伙伴" 的根本性转变。

我们正在步入一个人类创意与 AI 能力深度融合的新时代,在这个时代里,真正的竞争优势将来自于如何更好地与 AI 协作。

最后,想问下大家已经体验 Claude 4 了吗?欢迎大家在评论区积极分享你的使用感受和发现。

好了,今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

没有评论:

发表评论

154W,确实可以封神了!

5 月 14 日,国家科技部、发展改革委、财政部等 7 部门联合印发 《 加快构建科技 金融体制  有力支撑 高水平科技 自立自强的若干政策举措》 ,其中提出设立"国家创业投资引导基金"。 红利井喷下,AI 行业薪资水涨船高。 据中国基金报报道 ,某招聘平...