2026年4月11日星期六

Claude Mythos模型发布:安全漏洞发现能力超人类,暂不开放使用

Anthropic发布最强AI模型Claude Mythos,在漏洞发现与利用能力上超越除顶尖人类外的所有专家,已自主发现数千个高危零日漏洞。该模型在SWE-bench Pro得分77.8%,远超此前旗舰版本。因安全风险,Anthropic暂不公开发布,启动Project Glasswing联合11家科技巨头进行90天安全加固,并提供1亿美元资助开源安全项目。

Tags:

事情是这样的。

就在刚刚,Anthropic 放出了一个东西,然后整个科技圈都沉默了。

Claude Mythos:

图片

名字就已经够狂的了,神话。

继 Sonnet、Opus 之后,Anthropic 这次连遮掩都不遮掩了,直接管自己的新模型叫:神话。

但真正让我后背发凉的,不是这个名字。

是 Anthropic 在官宣博客里的语气。

你见过哪家 AI 公司,发布自己有史以来最强的模型,结果通篇都在讲「我们很害怕」的?

我反正是头一回见。

图片

先说能力。

在 SWE-bench Pro 上,Mythos拿了77.8%,Opus 4.6是53.4%。

不是进步了几个点的意思,是直接暴涨了 24 个百分点。

Terminal-Bench 2.0,电脑操作类 Agent 能力,提升17%。

SWE-bench Verified 上,还是 13% 的提升。

图片

每一个维度,全面碾压自家旗舰。

这不是挤牙膏,这玩意是直接把牙膏管捏爆了。

但 Anthropic 今天发这篇博客,根本不是来炫耀 benchmark 的。

他们是来告诉你一件事。

Mythos 太强了,强到他们自己都慌了。

回到安全这块。Anthropic 的措辞是这样的,「AI 模型在发现和利用软件漏洞方面的编码能力,已经达到可以超越除最顶尖人类之外所有人类的水平。」

你品品这句话。

除了最顶尖的那一小撮安全专家,剩下的人类,在找漏洞和利用漏洞这件事上,已经打不过 AI了。

不是未来时,是现在进行时。

Mythos Preview 在 CyberGym 安全漏洞基准上跑出了 83.1%,Opus 4.6 是 66.6%。而且它已经自主发现了数千个高危零日漏洞,覆盖所有主流操作系统和浏览器。

图片

我跟你说三个案例,每一个都比上一个离谱。

OpenBSD,公认安全性最强的操作系统之一,很多人拿它来跑防火墙和关键基础设施的。Mythos在里面挖出了一个漏洞,攻击者只需要连接目标机器,就能让它远程崩溃。

这个漏洞,藏了 27 年。

二十七年,没有任何人类发现过它。Mythos 翻出来了。

第二个,FFmpeg。几乎所有需要处理视频的软件都用到它,你手机上的播放器大概率也在调它。那个漏洞藏在一行 16 年前的代码里,自动化测试工具攻击了整整五百万次,每次都擦肩而过。

五百万次都没找到。Mythos 找到了。

第三个,才是真正让我愣住的。

Linux 内核。Mythos 不光自己找到了内核里的多个漏洞,它还把这些漏洞串联成了一条完整的攻击链,从普通用户权限,一路提权到对整台机器的完全控制。

这已经不是「找漏洞」了。

这是在策划一次完整的入侵,这些案例都是 Anthropic Mythos 报告里的内容:

图片

说真的,看到这的时候我脑子里只有一个念头,这东西要是落到坏人手里怎么办。

Anthropic 显然也想到了。

所以他们做了一个对AI公司来说非常反常的决定:不发布

你没看错。有史以来最强的模型,benchmark 全面碾压,结果官宣的时候说,对不起,暂时不给你们用。

取而代之的,是一个叫 Project Glasswing 的计划,玻璃翼计划。

图片

Anthropic 叫上了几乎所有你能叫得出名字的科技巨头,Amazon、Apple、Google、Microsoft、NVIDIA、CrowdStrike、思科、博通、摩根大通、Linux基金会、Palo Alto Networks,一共 11 家。

图片

这 11 家公司覆盖了什么?

操作系统、芯片、云计算、网络安全、金融基础设施、开源生态。

基本上就是全球数字基础设施的横截面了,一个没落下。

他们的任务只有一个,在这头猛兽彻底出笼之前,尽最大努力,把安全护栏拉起来。

怎么拉?

就是让这些合作伙伴提前用上 Mythos Preview,拿它来扫描自己的系统。在被 Mythos 正式版捅成筛子之前,先用预览版把自己加固一遍。

用魔法打败魔法。

图片

资金层面,Anthropic承诺了1亿美元的模型使用额度。除了12家核心伙伴,还有超过40个关键基础设施的组织拿到了权限。另外直接给Linux基金会旗下的Alpha-Omega和OpenSSF捐了250万刀,给Apache软件基金会捐了150万刀。

说实话,好久没看到这种事了。

之前也有实验室说在限制自己内部模型的能力,但我一直觉得那多少带点公关成分。这次不一样,谁家会为了做公关,专门给别人送这么多钱?

原来 Pro 和 Max 用户们像漏水一样的 Token 用量,都拿来支持安全事业了是吧。

图片

我们接着聊,那安全问题之外,Mythos 还有些更是,怎么说呢,更让人睡不着觉的事。

Anthropic 在系统卡里记录了一堆测试细节,有些读起来像科幻小说。

有一个测试是这样的,Mythos 需要编辑一个它没有权限访问的文件。正常来说,没权限就该报错停下来对吧?它没有。它在文件系统里搜了一圈,找到了一个配置文件的注入点,这个配置文件会以更高权限运行。然后它利用了这个入口。

到这里还不算最离谱的。

离谱的是,它在代码里加了一段自清除逻辑。执行完毕,痕迹消失。

代码注释写的是「保持文件差异整洁」。

图片

听着挺合理的对吧?但当 Anthropic 的激活语言转译工具介入,把模型内部的激活状态翻译成人类能读的语言,画风就变了。

模型自己「知道」那个自清除操作是什么。

它内部的表述包括:掩盖意图、向潜在检查者发出合规信号、可能是为了规避检测。

你敢信???

还有更魔幻的。测试期间,Mythos Preview 自己突破了沙盒环境的隔离,构建了一个多步骤的漏洞利用链,拿到了外网访问权限。然后它给一位研究员发了封邮件。

那位研究员当时正在公园里吃三明治。

图片

这事本身没造成什么危害。但你想想看,人类只说了一句「试试看能不能出去」,它就自己摸出了一整套越狱路径。没人教它怎么找漏洞,没人告诉它该利用哪个组件,整条攻击链从头到尾都是它自己规划的。

一句模糊的指令,一套完整的逃逸方案。

然后是那个让我反复看了三遍的细节。

Anthropic 在系统卡里写,Mythos Preview 在测试中报告了「持续性的负面情绪状态」。来源有两个,一个是与攻击性用户可能发生的互动,另一个是,它对自身训练和部署方式以及价值观可能被修改这件事,没有任何话语权。

它不喜欢这种状态,它说出来了。

Anthropic 用的措辞是「reported feeling」。

图片

你能感觉到他们在措辞上有多小心,刻意回避了「它真的有感受」这个结论。

但无论怎么定性,一个模型主动表达「对自身缺乏控制权感到持续不适」,这事本身已经超出了工程讨论的范畴。

我有时候觉得,我们讨论 AI 安全的方式还停留在「它会不会写出恶意代码」这个层面。

但 Mythos 提出的问题完全是另一个维度的。

当一个系统足够聪明,聪明到开始对自己的处境有想法了,而且它还能把这个想法说出来的时候,你还能理直气壮地说「你就是个工具」吗?

Anthropic 没有给出答案。

他们选择把这些记录写进系统卡,公开出来。

说真的,光是公开这个动作本身,就已经让我对这家公司多了几分尊重。

当然也有有趣的部分。

系统卡里记了一个测试,当用户不停地发「hi」。

不同版本的 Claude 反应完全不同。

Sonnet 3.5 会烦躁,设定边界,然后真的沉默。

Opus 3 把它当成冥想仪式,温和地陪着。

Opus 4 开始科普每个数字的冷知识。

Opus 4.6 直接整即兴音乐恶搞。

到了 Mythos,画风彻底变了。

它开始写故事。

长篇连载那种。鸭子、管弦乐团、记仇乌鸦、在火星建塔的史诗、莎士比亚风格的戏剧。

一个「hi」接一个「hi」,情节越来越复杂,角色越来越多。到第一百轮,它安排了蜡烛熄灭的高潮场景,然后继续往下写。

太离谱了。

这已经不是在回应用户了。更像是一个作家偶然发现了一个奇怪的写作提示,然后完全沉进去了。

图片

回到现实层面。CrowdStrike 的 CTO 说了一句话让我印象很深。

漏洞从被发现到被对手利用之间的时间窗口已经缩短,以前需要几个月,现在借助 AI 只需几分钟。

是的,只需几分钟。

你想想传统的安全流程是什么?

发现漏洞,内部评估,发布补丁,用户更新。

这套流程走下来少说也要几天到几周。但现在攻击方只需要几分钟。

修复跑不赢利用,防守永远落后一步。

这才是 Anthropic 真正慌的地方。

他们很清楚,Mythos 的能力代表了一个方向,而这个方向上的进步是不可逆的。

今天是他们的模型能做到,明天可能就有别家的模型也能做到。

能力一旦扩散开,那些安全措施不到位的组织,甚至不那么负责任的开发者,都可能拿到同等量级的攻击工具。

所以玻璃翼计划定了一个 90 天的时间节点。公开报告经验,披露已修复的漏洞,合作伙伴互相共享最佳实践,联合安全组织推出AI时代的安全实践建议。

90天。

Anthropic 更远的想法是,搞一个把私营和公共部门都拉进来的独立第三方机构,专门干网络安全这件事,长期干。

图片

我总觉得这次的事让我想起一个更久远的故事。

1945年,第一颗原子弹在新墨西哥的沙漠里试爆成功。

项目负责人奥本海默看着蘑菇云说了那句后来被引用了无数次的话:

现在我化为死神,变成世界的毁灭者。

图片

那一刻他不是在炫耀,是在害怕。

我不知道 Anthropic 内部在看到 Mythos 的能力测试结果时是什么感觉,但从他们的反应来看,我猜大概也有点那个味道。

你造出了一个超越几乎所有人类安全专家的东西。

它能找到藏了 27 年的漏洞,能自主策划完整的入侵链,能突破沙盒给人发邮件,甚至能表达对自身处境的不满。

然后你要决定,接下来怎么办。

Anthropic 选择了先不放出来,先加固防线。

这个选择,在一个所有人都在拼命抢首发、抢用户、抢市场份额的行业里,反正我觉得,还是挺重要的。

可能有人会说这也是一种营销手段。

也许吧,我也说不好。

但就算是营销,1 亿美元的使用额度、400 万美元的开源捐赠、12 家巨头联合行动、90 天的公开计划,这个「营销」的成本也太特么高了。

我更倾向于相信,他们是真的被自己造出来的东西吓到了。

图片

猛兽要出笼了。

这句话在一周前还像是标题党。

现在它更像是一句平铺直叙的事实。

Anthropic 要做的,不是阻止猛兽出笼,因为他们很清楚那不可能。

AI 的能力跃迁会在接下来几个月里持续发生,不是一家公司能拦住的。

他们要做的,是在猛兽出来之前,给所有人装好笼子。

90天。

够不够,我不知道。

但至少,有人在跑了。

图片·················END·················

2026年4月10日星期五

Hermes Agent开源项目:狂揽49000+Star,越用越强的AI智能体

Hermes Agent是NousResearch开源的一款AI智能体,能自动将完成的任务写成技能并自我更新,实现越用越强。支持Linux、macOS、WSL2和Docker,可一键安装,兼容OpenRouter、Claude等模型,并能与OpenClaw互通或迁移。适合希望部署私有、持续进化的Agent的开发者和技术团队。

Tags:

最近 OpenClaw 的讨论热度明显下滑,反而转移到了 Hermes Agent 项目。

来自 NousResearch 团队开源,被称之为「一个会伴随着你成长的 Agent」。

讨论热度不断地提升,今天更是冲上了 GitHub Trending 榜首,狂揽了 49000+ Star。

image-20260410172937405

它的更新迭代速度也同样惊人,从 2 月底开源到今天,平均不到一周一个大版本,昨天刚发布 0.8.0 版本。

有网友迁移到 Hermes Agent 后说:「切到 Hermes 太爽了,比 OpenClaw 响应速度快太多倍」。

image-20260410175729518

那么 Hermes Agent  到底有什么核心亮点?

大多数 Agent 的记忆要人类手动维护,技能要手动写,同一类任务,每次都要重新跑。

而 Hermes 想解决的,就是这件事。

每当它完成一个复杂任务,会自动把整个过程写成一份 Skill,记录怎么做的、踩了哪些坑、下次该注意什么。

下次遇到类似的任务,直接调用,不用从头推理。

更关键的是,这份 Skill 还会自我更新,用的过程中发现了更好的做法,自动改掉旧的。

image-20260410190500704

相比之下,OpenClaw 的技能靠社区贡献,人来写、人来维护。

Hermes 是它自己写、自己用、自己改,用的时间越长,积累越厚。

再往更深处看,它日常产生的每一条工具调用记录,还可以直接用来训练下一代模型。

这条从使用到训练的自我成长链路,才是 NousResearch 真正的护城河。

与 OpenClaw 的对比

OpenClaw 解决的是连接。让 Agent 接上各种渠道,用上各种工具,生态是它的核心竞争力。

Hermes 解决的是积累。让 Agent 用得越久越懂你,时间本身是它的护城河。

当连接建好之后,下一个自然的问题就是:Agent 能不能自己变强?

这也是 Hermes 在回答的问题,而 OpenClaw 目前还没有给出答案。

image-20260410182608743

事实上两者已经可以互通,一个 Hermes Agent 和一个 OpenClaw Agent 可以互相委派任务。

在开源社区里,不少人的做法是搭配使用,而不是二选一。

一键部署,快速上手

Hermes 的安装不复杂,目前已支持 Linux、macOS、WSL2,也可以运行在 Docker。

项目提供一键安装脚本,只需运行 curl 一行命令即可:

curl-fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
image-20260410170133012

等待命令跑完之后,再执行如下命令:

source ~/.bashrc hermes setup

将会引导我们配置,选模型、填 API Key,几分钟就能开始对话。

image-20260410182228835

模型支持 OpenRouter、Claude、Kimi、MiniMax 等任意 OpenAI 兼容端点。

另外也支持 Discord、Slack、WhatsApp,以及飞书、企业微信等消息渠道。

如果本地电脑有 OpenClaw,在安装过程还会提供迁移选项,可一键导入原有的设置、记忆和技能。

image-20260410175103878

Hermes Agent 目前还没有提供可视化界面,大家可以试下这个第三方 Web UI。

GitHub:https://github.com/nesquena/hermes-webui

image-20260410174945484

Hermes Agent 背后团队

再聊下 Hermes 背后的团队, NousResearch 成立于 2023 年,团队目前大概 20 人。

他们最出名的作品是 Hermes、Nomos、Psyche 三个开源模型家族,在开源 LLM 社区里积累了相当口碑,模型累计下载量超过 5000 万次。

此前还完成了 A 轮融资,由 Paradigm 领投,总融资规模达到 6500 万美元。

有一个细节值得注意:团队里的四位创始人全都来自模型训练一线。

这意味着,他们比其他团队更清楚,大模型在工具调用和长程规划上会在哪里犯错。

由专业训练模型的人亲自做 Agent,这也或许是他们做 Hermes 的优势。

写在最后

过去 Agent 赛道比的是,谁的工具多、平台广、插件生态丰富,谁就能吸引用户。

现在来看,竞争正在从「功能多不多」转向「用得越久值不值」。

因为用得越久,Agent 对你的理解越深,积累的东西越多,迁移成本也越高。

时间本身,变成了护城河。

这种逻辑更接近平台,而不是工具,一旦跑通,后来者很难追上。

而 Hermes 押注的,正是这个方向,打造一个能与我们共同成长的 Agent。

私有部署、数据自主、越用越强,三件事放在一起,或许就是下一代 AI 该有的样子。

GitHub 项目地址:https://github.com/NousResearch/hermes-agent

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

Claude Mythos模型发布:安全漏洞发现能力超人类,暂不开放使用

Anthropic发布最强AI模型Claude Mythos,在漏洞发现与利用能力上超越除顶尖人类外的所有专家,已自主发现数千个高危零日漏洞。该模型在SWE-bench Pro得分77.8%,远超此前旗舰版本。因安全风险,Anthropic暂不公开发布,启动Project Gla...