公众号关注 "GitHubDaily"
设为 "星标",每天带你逛 GitHub!
过去一周,各大 AI 科技公司掀起了层层巨浪,从微软 Build 到 Google I/O 大会,多家巨头轮番出招,未曾停歇。
直至今日凌晨,一张沉浸已久的 "王牌" 被悄然掀开,才将本周 AI 技术盛宴带到了新高潮。
今天,Anthropic 重磅发布 Claude Opus 4 和 Claude Sonnet 4,全面超越了包括 OpenAI o3 和 Gemini 2.5 Pro 在内的所有竞争对手,成为最强的编程模型。
其中 Opus 4 连续 7 小时独立编程 的能力,震惊整个开发者社区,再次将编码、高级推理和 AI Agents,推向全新高度。
Claude 4 横空出世
Claude Opus 4 这个被号称为 全球最强编码模型,极其擅长执行复杂、长时间运行的任务,并且在 AI 智能体工作流中表现出色。
而 Claude Sonnet 4,则是 Claude Sonnet 3.7 的重大升级版本,在保持效率的同时显著提升了编程和推理能力,同时能更精准地响应指令。
两个模型都具备 "混合推理" 能力,像是给 AI 装了一个 "思考开关",我们可以自由选择让模型快速回答,或者启用扩展思考模式进行更深入的逐步推理。
这种巧妙的设计就使得 AI 既能满足日常的快速问答,也能应对需要深度思考的复杂问题。
更值得注意的是,Claude 4 允许在扩展思考过程中使用工具,如网络搜索等。简单来说,就是让 AI 拥有 "边思考边查找资料" 的能力,从而获得更高质量的回答。
AI 编程能力新里程碑
我们再来看下它们在实际测试中的表现,根据官方提供的 SWE-bench 测试结果,Opus 4 和 Sonnet 4 在基础测试上分别取得 72.5% 和 72.7% 的准确率。
SWE-bench Verified: 真实软件工程任务性能基准测试。
而 Opus 4 在 Terminal-bench 中达到 43.2% 的得分,全面超越了包括 OpenAI o3 和 Gemini 2.5 Pro 在内的所有竞争对手,成为最强的编程模型。
下一代编码 Agent
此次除了模型发布之外,还有一个重磅产品:Claude Code 跟着发布,进一步完善 Anthropic 的生态,试图构造其护城河。
允许将强大的 Claude 模型能力融入到我们开发工作流中,目前已支持与 VS Code、JeBrains 集成。只需在 IDE 终端中运行 Claude Code 即可安装。
除此之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,官方还给出了一个集成到 GitHub 的示例。
可以看到,在 PR(拉取请求)中标记 Claude Code,即可回复审阅者的反馈、修复持续集成(CL)错误或修改代码。
如果想要体验,可以在 Claude Code 内部运行 /inistall-github-app
即可安装使用。
这意味着开发者可以直接在自己熟悉的开发环境中与 Claude 协作,实现真正的 "结对编程" 体验。
网友实则,效果炸裂
这场激动人心的发布会,一结束各大网友们纷纷开始实测,从评价来看个个直呼:"Claude 4 太牛了"。
只用一句提示词,就能让 Claude Opus 4 生成一个可用的浏览器智能体,包括 API 和前端。
大佬惊叹:从未见过这样的事情,真的不敢相信!
只用一句提示词,就构建了完整可玩的俄罗斯方块游戏。
网友总结说:Claude 4 在写作和编辑方面最好,编码能力与 Gemini 2.5 媲美。
而这位网友只花了 30 秒,Claude 4 就为他制作了一个 CRM 仪表盘,直呼 "疯了"。
还有网友利用 Claude 4 强大编码能力和网络搜索,实现了一个准确的行星轨道运动前端动态界面。
如何体验
看到这里,我相信各位都已经蠢蠢欲试了,下面简单跟大家说下如何使用 Claude 4。
目前 Claude 4 模型已经直接上线到官网,其中 Pro、Max、Team 和 Enterprise 用户,可以体验到两款模型及扩展思考功能。
值得一提的是,Claude Sonnet 4 面向所有免费用户开放使用,不过有使用次数限制。
另外,开发者也可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 调用。
而这次 Claude 4 的定价与之前的 Opus 和 Sonnet 模型保持一致:
Opus 4 每百万 Token 为 15 美元(输入)/75 美元(输出)
Sonnet 4 每百万 Token 为 3 美元(输入)/15 美元(输出)
大家可以根据各自情况,自由选择使用体验 Claude 4。
写在最后
Claude 4 的发布标志着 AI 编程能力迈向了新的里程碑,从混合推理到扩展思考,再到与开发环境的无缝集成。
它不仅在编程基准测试中树立了新标杆,更重要的是重新定义了 AI Agent 的能力边界。
当 AI 可以连续工作 7 小时完成复杂任务时,我们看到了人工智能从 "辅助工具" 向 "协作伙伴" 的根本性转变。
我们正在步入一个人类创意与 AI 能力深度融合的新时代,在这个时代里,真正的竞争优势将来自于如何更好地与 AI 协作。
最后,想问下大家已经体验 Claude 4 了吗?欢迎大家在评论区积极分享你的使用感受和发现。
好了,今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!
没有评论:
发表评论