今天这篇内容可能会比较特殊,是一篇Anthropic凌晨发的全新文章。名字叫《When AI builds itself》。翻译过来叫,《当人工智能开始自我构建》。他们甚至还为这篇文章,配了一个超级精美的、非常能体现Agent自我构建这个理念的动画,由此可见Anthropic对这篇内容的重视程度可见一斑。
我大概凌晨1点多读的,读完以后,我直接就分享到了所有的群里,因为感觉确实学到了很多东西。非常非常有价值。然后开始写文章,也想给大家分享一下我自己的感悟。但是写着写着,我觉得我怎么写都写不好,怎么都无法表达出原文的浩瀚。所以,写着写着,算了。这种内容,还是值得放原文。所以,我把那篇文章,进行了全文的翻译和润色,分享给大家,也希望对大家有用,一定要看到最后,它值得你花20分钟的时间。以下是《When AI builds itself》原文翻译:
《当 AI 开始构建自己》
在 AI 的大部分历史中,开发周期的每一步都由人类驱动。但在 Anthropic,我们正在将越来越多的 AI 开发工作交给 AI 系统自身来完成,而这正在加速我们的工作。
如果把这个趋势推到极致,并给予充足的算力,它所指向的终点,是一个能够完全自主地设计和开发自己下一代的 AI 系统。这就是所谓的递归自我改进。我们还没有走到那一步,递归自我改进也并非必然发生。但它到来的速度,可能远超大多数机构的预期和准备。
本文所讨论的技术趋势表明,AI 系统在未来几年将变得更加强大。这些趋势蕴含着巨大的影响。能自己构建自己的 AI,将是技术史上的重大里程碑,它可能在科学、医疗等领域为世界带来巨大的福祉。但完全的递归自我改进也可能加剧人类失去对 AI 系统控制的风险。如果系统有能力完全自主地构建自己的继任者,那么我们对它们的安全防护、监控和行为塑造就变得更加重要。
2021–2023构建初代 Claude 早期的 Anthropic,工作方式和其他任何科技公司没什么两样:人们在笔记本电脑上写代码、写文档。2023–2025聊天机器人 人们开始用早期的聊天机器人辅助部分工作流程,比如生成一小段代码片段,然后把输出复制到文本编辑器里。2025–2026编程智能体 随着智能体能力的增长,它们已经可以自主编写和修改代码,有时甚至能独立完成整个文件。今天自主智能体 智能体现在可以自己运行代码,并将长达数小时的工作委派给其他智能体。20XX?闭合回路 未来,智能体可能强大到足以自行构建和训练模型。如果这一天到来,Claude 的后续版本将可以由 Claude 自身持续改进。来自外部世界的证据AI 模型改进的速度正在加快,模型能够独立可靠完成的任务时长,大约每四个月翻一番,比此前每七个月翻一番的趋势明显加速。2024 年 3 月,Claude Opus 3 能完成人类大约需要四分钟的软件任务。一年后,Claude Sonnet 3.7 能处理大约一个半小时的任务。再过一年,Claude Opus 4.6 已经能胜任 12 小时的任务。如果这个趋势持续下去,需要一个熟练工程师花几天才能完成的任务,今年内就可能落入 AI 的能力范围。到 2027 年,AI 系统可能有能力处理需要一个人花几周完成的任务。同样的模式也出现在编程和研究基准测试中。基准测试衡量模型在特定领域的表现,当模型的得分接近 100%,我们就说基准被"饱和"了。SWE-bench 是一个标准的真实世界软件工程测试:它给模型一个真实的开源代码库和一份真实的 Bug 报告,要求模型写出修复代码,并通过该项目自己的测试。模型的得分从最初的个位数百分比到饱和整个基准,只用了两年。CORE-Bench 测试的是模型能否复现已有研究,这是开展原创研究的前提条件。它将一篇已发表论文的代码和数据交给 AI 模型,要求它重新运行所有内容并确认能否复现论文的结果。AI 系统的成功率从 2024 年的约 20% 上升到 15 个月后饱和整个基准。运营长时任务基准测试的 METR 机构发现,Claude Mythos Preview 能够"至少"连续工作 16 小时,并且处于"METR 在不增加新任务的情况下所能测量的上限"。公开基准测试能揭示很多关于这些系统能力的信息。但它们无法展示 AI 系统在加速 AI 开发本身方面产生了多大影响。要看到这一点,我们需要来自 Anthropic 这样的 AI 公司内部的直接证据。来自 Anthropic 内部的证据
Claude 编写了 Anthropic 代码库中相当大的比例。截至 2026 年 5 月,我们合并到 Anthropic 代码库中的代码,超过 80% 由 Claude 编写。在 Claude Code 于 2025 年 2 月以研究预览版发布之前,这个数字还在个位数的低端。这一转变也反映在每位工程师的产出上。在 Anthropic 的头四年(2021–2024),每位工程师每天合并的代码行数基本持平,然后在 2025 年开始攀升——因为 Claude 从只是建议代码,变成了可以自己运行代码。2026 年这条曲线再次变陡,因为模型开始在更长的时间跨度上自主工作。下面的图表展示了这两个拐点。在 2026 年第二季度,一名典型工程师每天合并的代码量是 2024 年的 8 倍。其原因在于,大部分代码是由 Claude 编写的,工程师的角色转向了指导和审查,而非亲手敲代码。
一个需要说明的地方是:代码行数是一个不完美的衡量指标,因为它度量的是数量而非质量。所以 2026 年第二季度 每位工程师每天 8 倍的代码行数,几乎可以肯定是对真实生产力提升的高估。尽管如此,它仍然指示了一种加速。在 Anthropic,我们不以代码行数来衡量员工的贡献;团队成员产出更多代码,纯粹是因为他们在使用 AI 系统来编写更多代码。
代码行数的增长与主观感受到的巨大生产力提升是吻合的。2026 年 3 月,一项覆盖 Anthropic 研究团队 130 名员工的内部调查中,受访者的中位数估计是:在他们本来就会去做的那些项目上,使用 Mythos Preview 大约让他们的产出变成了不使用任何 AI 模型时的 4 倍。我们预计 3 月的真实提升幅度会略低一些。但我们认为这个整体判断是可信的,也与我们的其他观察一致:Anthropic 相当比例的技术人员,完成核心工作的速度已经是无 AI 辅助时的数倍。
我们还看到,Anthropic 员工在用 Claude 做一些原本根本不会发生的工作:比如构建探索性工具、处理长期积压的清理任务。举个例子,2026 年 4 月,Claude 交付了超过 800 个修复,将一类 API 错误的发生率降低了一千倍。负责监督 Claude 的工程师估计,如果由人类来做,这项工作需要四年才能完成;修复别人的 Bug 是缓慢而痛苦的,人类很难同时在脑中持有那么多不熟悉的上下文。
Claude 写出的代码"够好",并且还在变好。
"好代码"有两层含义:它能用,而且写法能让另一位工程师看得懂、接着往下开发。在第一个标准上,证据非常清晰。过去一年里,Anthropic 员工纠正 Claude、在任务中途接管、或将 Claude 引回正轨的频率在持续下降,即使是在最复杂、最开放的任务上也是如此。所谓开放的任务,指的是没有明确规格说明的问题,工程师自己也不确定答案长什么样。下面的图表展示了 Claude 在不同难度任务上的成功率随时间的变化。Claude 写的代码确实能用。
第二个标准是写出其他工程师能看懂并在此基础上继续开发的代码。在这一点上,人类和 AI 之间的差距仍然存在,但正在快速缩小。Anthropic 内部并非完全一致,但许多人认为:2025 年末时 Claude 写的代码质量仍然不如 Anthropic 人类工程师的水平,而到了今天大致达到了同等水平。我们预计年内 Claude 的代码质量将超过人类。
这已经改变了 Anthropic 审查自身代码的方式。我们对代码库的变更提交,现在会先经过一个自动化的 Claude 审查器,它会在代码合并前检查 Bug、安全漏洞和其他缺陷。我们用这个工具做了一次回溯分析,发现如果对代码库的每一次变更都做自动 Claude 审查,大约三分之一曾经在 claude.ai 上引发过事故的 Bug 本可以在进入生产环境之前就被拦截。而写出那些代码的工程师,是全世界构建这类系统最优秀的人。Claude 现在正在捕捉他们遗漏的错误。
Claude 在自主提出实验方面也越来越强。2026 年 4 月,Anthropic 发表了首个 Claude 端到端独立完成开放式研究项目的案例。由 Claude 驱动的智能体被交给了一个 AI 安全方向的开放问题,大致是"一个较弱的模型能否可靠地监督一个更强的模型",然后被放手去解决。这个过程涉及提出假设、测试假设、与并行智能体共享发现、反复迭代。这项任务有一个明确的表现"下限"和"上限":下限是弱监督器独自工作的表现,上限是强模型在正确答案上训练后的表现。两位人类研究员用了大约一周时间,弥合了大约 23% 的差距;智能体们则在累计 800 小时的工作和大约 18000 美元的算力消耗下,弥合了 97%。这项工作有一些值得注意的局限:结果没有干净地迁移到生产规模的模型上,而且问题的选择和评分标准仍然是人类制定的。但在这些边界之内,每一个实验都是智能体自行设计的。人类唯一实质性发挥的作用,只是确定研究方向。
“这些工作 Claude 几乎在一到两天内就完成了,我几乎没怎么插手。我觉得如果一个初级同事在同样的时间里交回这样的结果,我会小有惊喜。未来已经到了。”
Claude 在将研究会话引向有价值发现方面越来越出色。
我们检视了 2026 年 1 月至 3 月间的真实 Claude Code 会话,这些会话中 Anthropic 研究员与 Claude 协作解决一个开放式的探索性问题——比如查明某次训练运行为何持续崩溃,或某个模型在基准测试上表现不佳的原因。
在每个案例中,我们都找到了一个研究员"绕了弯路"的时刻:他们追了一个方向,导致会话偏离正轨,之后才回到正确路径上。然后我们只将偏离之前的工作内容展示给不同版本的 Claude 模型,问它下一步会怎么做。另一个能看到整个会话最终走向的 Claude 实例则负责评判:是 AI 还是人类给出了更好的下一步建议。
证据表明,在 AI 开发流程的每一步中,人类的角色都在收窄。一旦人类和 AI 编写的代码质量达到同等水平,人类将完全停止写代码,转而只做审查。但如果他们审查代码的速度跟不上 Claude 生成代码的速度,人工审查就会成为 AI 开发的新瓶颈。同样的,当 Claude 能够自己运行实验时,问题就变成了"这些实验中哪些值得去做?"
对上述证据一个自然的反驳是:仍然掌握在人类手中的那部分工作,选择要解决哪些问题才是最关键的。没有这种判断力,Claude 只是一个能干的助手,而非一个能独立驱动 AI 进步的系统。
今天的训练方法和架构能否释放这种能力,确实尚不清楚。但 AI 的进步很少依靠"灵光一现"。在 AI 的近代史上确实有过几次这样的时刻,比如 Transformer 架构和混合专家模型,但这种范式级的突破相隔数年才出现一次。在两次突破之间,大部分进展都是渐进式的:我们把某个东西做大,看看哪里会出问题,修好它,再试一次。而这恰恰是 Claude 现在最擅长的工作流。爱迪生说天才是 1% 的灵感加 99% 的汗水。但我们看到的是,那 99% 的汗水正在被越来越多地自动化。
即使假设 Claude 永远无法拥有良好的研究品味,对我们证据的保守解读仍然意味着一种复合式的加速。如果人类将大部分时间花在仅占个位数百分比的方向设定工作上,而 Claude 处理剩下的一切,那就意味着每位工程师或研究员所驾驭的工作规模远超从前。我们看到的证据表明,Anthropic 的员工既在更快地推进,也在覆盖更广泛的领域。实际上,这意味着 AI 已经让 Anthropic 比有效 AI 工具出现之前运转得快得多。
更大胆的解读则是:Claude 在研究判断力上的早期改进信号——虽然今天还很有限,但这恰恰说明这项能力本身也在提升。所谓"研究品味"可能只是又一项 AI 能力,AI 系统会在这上面失败一段时间,然后变好。我们在其他定性技能上见过同样的模式,比如 AI 系统理解一个笑话为什么好笑、展现心智理论能力、以及解开语言谜题。
本文中出现了许多指数级增长的轨迹。但这些轨迹实际上可能是 S 曲线。我们也许正在逼近曲线的拐弯处——回报递减,增长曲线先趋平、再走平。那种区分一个合格研究员和一个卓越研究员的判断力,可能是一种无法通过堆叠算力和数据等训练资源来获得的能力。如果确实如此,突破这一瓶颈将需要新的思路,比如一种取代当前所有前沿模型所使用的 Transformer 架构的全新架构范式。
另一种可能是,AI 进步的约束不在模型本身,而在供应链:推进和普及前沿技术所需的能源和算力,可能超出了当前的供给能力。芯片制造、电网扩容或互联带宽的速度可能才是真正的瓶颈,而非智能本身。我们也不能排除某种外部冲击对 AI 生态系统造成严重拖累,比如算力或电力供应的突然收缩,这两者中的任何一种都会减缓进步,并使实验室的前瞻性投资变得更加昂贵。又或者存在某种我们尚未预见到的其他障碍。
在这个情景中,AI 开发被大幅自动化,但人类继续设定研究方向、评判研究结果。使用 AI 系统的组织将随着时间推移变得高效得多,因此我们可以预期每个人身上出现显著的生产力乘数效应。100 人的公司可以完成一万人甚至十万人组织的工作量。这将彻底改变知识工作的面貌,但也可能被用于有害目的,从对全体国民的威权式监控,到针对每一个个体量身定制的操纵行动,这种行动的规模远超任何人类团队的能力上限。Anthropic 这样的公司中,人类的角色将发生转变。人们将与 AI 系统搭档来扩展研究规模、产生新的洞见,并共同构建用于验证 AI 输出可信度的系统。
如果推动能力进步的技术趋势持续下去,并且 AI 系统能够发展出蕴含人类变革性创造力的那些能力,那么 AI 系统有可能设计和改进自身。
在这个世界里,AI 发展的速度将完全取决于可用算力(或者在算法训练和推理层面发现各种效率提升的速度)。人类在 AI 开发中的角色将大幅缩减,大部分精力可能转向对一个不断扩张的 AI "虚拟实验室"进行监督、验证和确认。我们预计,一个有能力自动化 AI 研发的系统,其技能也能迁移到其他科学领域,从而开始革新更多学科。
我们相信,让世界拥有减缓甚至暂时暂停前沿 AI 开发的选项,从而让社会结构和对齐研究能跟上技术前进的步伐,对世界是有益的。Anthropic 研究院与其他许多机构合作开展研究并采取行动,帮助建立一个可信的减速或暂停所需要的体系。这些体系将使前沿 AI 开发者能够核实其他参与者是否在全球范围内确实已经停止或减速,以及是否有不良行为者利用协调减速的掩护秘密抢跑。如果这样的体系存在,我们预计我们会选择减速或暂时暂停,当然前提是其他处于或接近前沿的开发者也以可验证的方式这样做。
有意义的减速或暂停需要多家分处多个国家、处于或接近前沿资源充沛的实验室在相同条件下达成停止协议。它还要求各方能够验证其他方确实已经停止。由于 AI 系统的独特特性,这个军控问题中的可探测性(一个低于可验证性的标准)要素,比其他技术困难得多。