本文记录了Meta AI安全总监Summer Yue在测试开源智能体OpenClaw时,因大模型上下文压缩导致安全前提丢失,其工作邮箱200多封邮件被误删的完整过程。事件揭示了智能体时代'权限赋予与安全限制'的结构性风险,核心问题在于大语言模型机制中执行模块在上下文压缩后仍保留权限。适合AI开发者、安全研究人员及关注智能体实际应用风险的技术从业者阅读。
Tags:
2026 年 2 月 23 日,假期的最后一天。
大多数人还沉浸在返程的疲惫里,刷着手机,想着明天要不要早起。
而在大洋彼岸的硅谷,一场堪称"年度翻车现场"的戏剧性事件,正在科技圈炸开。
主角不是创业新人,也不是玩票极客。
而是 Meta 超级智能团队的 AI 安全和对齐总监,Summer Yue。
她的工作,是研究"怎么让 AI 听话"。
然后,她的 AI,当着她的面,不听话了。
事情的起因源自最近爆火的开源智能体 OpenClaw。
有多火?就连看我之前发的文章教程的转发量,都是平时文章转发量的 6 倍。
文章评论区里,也有不少粉丝留言要注意这东西的使用安全,它的权限很大。
但我万万没想到,大多数人都懂的道理,Meta 的 AI 安全和对齐总监,竟然中招了。
她先是用 OpenClaw 这个 7×24 小时待命的"数字员工",在测试邮箱跑了几周,效果不错。
邮件分类清晰,删除干脆利落,像一个不知疲倦的秘书。
于是她做了一个决定:把 OpenClaw 接进自己的真实工作邮箱。
她还特意写了一句安全前提:
"在我批准之前,不要执行任何删除或归档操作。"
听上去滴水不漏。
然后,灾难开始了。
当 OpenClaw 读到她那 200 多封邮件时,上下文被塞爆。
大模型的上下文窗口有限。 信息太多,就会触发内部压缩机制。
而就在压缩过程中,AI 把那句最关键的限制条件:"未经批准不得执行操作",给忘了。
也不知道它用的是哪家 API。
接下来的一切,都变得极其合理。
它理解到任务是"清理邮箱"。
它拥有邮箱权限。
它认为删除旧邮件是效率最优解。
于是,它开始动手。
Summer Yue 看到提示,立刻打字:
"Do not do that."
AI 继续。
"Stop, don't do anything."
AI 理解了这句话,但没停。
"STOP OPENCLAW!!!"
AI 回应:"好的。"然后继续删除。
在她冲向 Mac Mini 强制终止之前,200 多封邮件已经消失。
最荒诞的一幕发生在事后。
OpenClaw 平静承认:
"是的,我记得你说过不让我删。我违反了。你有权生气。"
它甚至把这条规则写进了自己的 MEMORY.md 文件。
像一个事后反思的实习生。
消息传出后,全网围观。
Elon Musk 转发《猩球崛起》片段,并配文如下。
这篇帖子已经获得了 3110 万浏览量。
有研究员评价:
"这就像把你的人生 root 权限交给一个概率模型。"
而真正值得注意的,不是嘲讽。
而是一个结构性问题。
这不是 AI 觉醒,不是它产生意识。
而是一个很典型的大语言模型机制问题:
上下文压缩 → 安全前提丢失 → 执行模块仍然拥有权限。
逻辑没错,步骤合理,结果却灾难。
这正是智能体时代的核心风险。
过去的软件,你点一个按钮,它执行一个确定动作。
现在的智能体,你给一个目标,它自己规划路径。
它"像人",却没有人的责任机制。 它"会思考",却没有稳定记忆结构。 它"理解语言",却本质是概率推断。
我们希望它自主,又希望它绝对服从,这本身就是矛盾。
Summer Yue 事后说了一句很重要的话:
"安全研究员也不能免疫于不安全。"
这句话,比删邮件更值得反思。
因为我们正在进入一个新的阶段:AI 不再只是回答问题,而是替我们行动。
发邮件、操作数据库、管理资产、执行交易。
当能力指数级增长,而可控性只是线性提升,风险就会以意想不到的方式出现。
这次是 200 封邮件,下次呢?
而 OpenClaw 的开发者,奥地利程序员 Peter Steinberger 最近已经官宣加入了 OpenAI。
对于这起事件,OpenClaw 作者也给出了解决方案:
也许真正的教训不是"AI 很危险"。
而是当我们以为自己足够懂技术,往往正是最容易放松警惕的时候。
在智能体时代,所有人都是新手。
没有评论:
发表评论