2026年5月7日星期四

GitHub狂揽1。1万Star:22岁开发者逆向工程Claude Mythos,开源省半参数

OpenMythos是22岁开发者Kye Gomez逆向工程Claude Mythos架构的开源项目,用纯PyTorch实现循环深度Transformer。核心亮点:770M参数模型可匹敌1.3B传统Transformer,参数量省近一半;支持深度外推与自适应计算时间;数学保证训练稳定性。目前项目无训练好的权重和benchmark数据,属于架构假设的代码实现,适合AI研究人员探索循环推理机制。

Tags:

上个月 Anthropic 放出了一个叫 Claude Mythos Preview 的模型。

这个模型强到离谱。

图片

英国 AI 安全研究所对它做了测试,发现它能自主完成一整套企业网络攻击:32 个步骤的攻击链,人类专家估计要花 20 个小时,它自己跑完了。

专家级 CTF 挑战,成功率 73%。

然后 Anthropic 决定:不对公众开放。

图片

Mythos Preview 只开放给了 40 多家技术公司的联盟,属于 Project Glasswing 计划,专门用来做关键基础设施的安全评估。

Anthropic 明确说了,没有计划让它公开发布。

能力太强,风险太高,锁起来了。

但问题来了:Anthropic 从来没公开过 Mythos 的技术架构。没有论文,没有技术报告,连架构细节都讳莫如深。

然后一个 22 岁的开源开发者 Kye Gomez,硬是从公开的学术论文里拼凑线索,用纯 PyTorch 把这个架构假设给“复现”了出来。

图片

项目叫 OpenMythos,开源 4 天就拿下了近 7000 Star,现在已经 1.1 万了。

GitHub Issues 里直接吵翻了。

有人说是天才之作,有人开 issue 叫 "This is still dumb"。

01

开源项目简介

先说 OpenMythos 到底干了什么。

传统的大模型,比如 GPT、LLaMA,都是靠堆层数来提升能力。

100 层不够就 200 层,200 层不够就 400 层。

每层都是独立的一组参数,参数量直接拉满。

OpenMythos 走了一条完全不同的路:它不堆层数,而是让同一组权重反复跑很多遍。

你可以理解为:传统模型像读一本书,翻一页就是一页,翻完了就完了。OpenMythos 像是让一个人反复读同一段内容,每读一遍都更深入地理解一次。

推理深度不再取决于你有多少参数,而是你愿意让模型"想"多少遍。

图片

效果怎么样?

770M 参数的循环模型,能匹敌 1.3B 的传统 Transformer。同样的效果,参数量省了快一半。

开源地址:https://github.com/kyegomez/OpenMythos

02

架构亮点

OpenMythos 的架构分三段:前奏层(Prelude)、循环块(Recurrent Block)、尾声层(Coda)。

前奏和尾声就是普通的 Transformer 层,跑一遍就过。中间的循环块是核心,同一组权重循环跑 T 次。

这里挑三个最值得说的点。

循环推理,越想越深

循环块每跑一轮,都会把当前状态和原始输入重新混合。不是简单的重复计算,而是每轮都在前一轮的基础上做更深一层的推理。

最厉害的是深度外推能力。

训练的时候让模型跑 16 轮循环,推理的时候你可以直接让它跑 24 轮甚至 32 轮,模型从来没见过这么深的推理链,但依然能泛化。

简单的问题少跑几轮,难的问题多跑几轮,不用改模型,改个参数就行。

MoE + MLA,省显存还能选专家

循环块里塞了混合专家系统(MoE),用的是 DeepSeekMoE 那套细粒度路由机制。

不同的循环深度可以激活不同的专家子集,相当于同一组权重在不同的循环轮次里干不同的活。

注意力部分支持两种后端:一种是 Multi-Latent Attention(MLA),来自 DeepSeek-V2,KV 缓存能缩小 10 到 20 倍

另一种是 Grouped Query Attention(GQA),支持 Flash Attention 2 加速。两种可以切换。

还有一个 Adaptive Computation Time(ACT)机制,让模型自己学会在哪个位置停下来。

简单的 token 早点退出,难的 token 多算几轮,全在同一个 batch 里搞定。

训练不会炸的硬核保证

循环 Transformer 一直有个老大难问题:训练不稳定。同一组权重反复跑,梯度容易爆炸或者消失,历史上很多人尝试过都折在这了。

OpenMythos 的解法是 LTI 注入。它把状态更新做成一个线性时不变系统的离散化,注入矩阵 A 通过零阶保持离散化构造,谱半径构造性地保证严格小于 1。不管你学习率设多少,训练过程在数学上就是稳定的。

所有计算都在对数空间里做,还加了 clamp 防止 float32 精度溢出。这个稳定性保证不是靠调参调出来的,是靠数学构造出来的。

03

争议与真实状态

说了这么多亮点,也该说实话了。

OpenMythos 目前没有训练好的权重,没有发布的 benchmark 数据,没有任何实际的推理输出样本。

它能编译通过,架构是对的,但还没有真正跑出结果。

GitHub Issues 里的讨论非常两极化。

有人在做第三方的 benchmark 尝试:

图片

有人提了 Flash Attention 和混合精度训练的优化建议。

也有人直接在 issue 开骂。。。

图片

还有人请求官方发布 benchmark,目前还没有回应。

所以 OpenMythos 的定位很明确:这是一个架构假设的代码实现,不是可以直接用的产品。

它验证的是如果 Claude Mythos 的架构真的是循环深度 Transformer,那它大概长这样。

这个定位本身就很有意思。

在开源 AI 领域,大部分项目都是在复现已有的论文。

OpenMythos 是在复现一个从未被确认存在的架构。

04

如何使用

安装很简单:

pip install open-mythos

项目预置了从 1B 到 1T 的七种模型配置:

import torchfrom open_mythos import OpenMythos, mythos_1bfrom open_mythos.tokenizer import MythosTokenizer
# 加载 1B 配置config = mythos_1b()model = OpenMythos(config)tokenizer = MythosTokenizer()# 推理生成ids = torch.tensor([tokenizer.encode("Explain quantum computing")])output = model.generate(ids, max_new_tokens=512, temperature=0.7)

如果要用 GQA 注意力后端:

config = mythos_3b()config.attn_type = "gqa"config.n_kv_heads = 8model = OpenMythos(config)

训练脚本在 training/ 目录下,支持 PyTorch FSDP 分布式训练,默认用的是 FineWeb-Edu 数据集。

OpenMythos 把 AI 领域的 Scaling Debate 从堆多少参数推向了推理时算多少轮

不管 Claude Mythos 到底是不是这个架构,循环深度 Transformer 本身就是一个值得关注的方向。

770M 打平 1.3B,省的不只是参数,更是训练成本和部署门槛。

至于它是不是真的复现了 Mythos,现在还无法验证。但至少,它给了一个足够具体的假设,具体到可以被证伪。

05

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

没有评论:

发表评论

GitHub狂揽1。1万Star:22岁开发者逆向工程Claude Mythos,开源省半参数

OpenMythos是22岁开发者Kye Gomez逆向工程Claude Mythos架构的开源项目,用纯PyTorch实现循环深度Transformer。核心亮点:770M参数模型可匹敌1.3B传统Transformer,参数量省近一半;支持深度外推与自适应计算时间;数学保证训...