AI I024: GitHub狂揽1。1万Star：22岁开发者逆向工程Claude Mythos，开源省半参数

OpenMythos是22岁开发者Kye Gomez逆向工程Claude Mythos架构的开源项目，用纯PyTorch实现循环深度Transformer。核心亮点：770M参数模型可匹敌1.3B传统Transformer，参数量省近一半；支持深度外推与自适应计算时间；数学保证训练稳定性。目前项目无训练好的权重和benchmark数据，属于架构假设的代码实现，适合AI研究人员探索循环推理机制。

Tags:

AI开源项目

大模型架构

循环深度推理

参数效率

逆向工程

上个月 Anthropic 放出了一个叫 Claude Mythos Preview 的模型。

这个模型强到离谱。

英国 AI 安全研究所对它做了测试，发现它能自主完成一整套企业网络攻击：32 个步骤的攻击链，人类专家估计要花 20 个小时，它自己跑完了。

专家级 CTF 挑战，成功率 73%。

然后 Anthropic 决定：不对公众开放。

Mythos Preview 只开放给了 40 多家技术公司的联盟，属于 Project Glasswing 计划，专门用来做关键基础设施的安全评估。

Anthropic 明确说了，没有计划让它公开发布。

能力太强，风险太高，锁起来了。

但问题来了：Anthropic 从来没公开过 Mythos 的技术架构。没有论文，没有技术报告，连架构细节都讳莫如深。

然后一个 22 岁的开源开发者 Kye Gomez，硬是从公开的学术论文里拼凑线索，用纯 PyTorch 把这个架构假设给“复现”了出来。

项目叫 OpenMythos，开源 4 天就拿下了近 7000 Star，现在已经 1.1 万了。

GitHub Issues 里直接吵翻了。

有人说是天才之作，有人开 issue 叫 "This is still dumb"。

开源项目简介

先说 OpenMythos 到底干了什么。

传统的大模型，比如 GPT、LLaMA，都是靠堆层数来提升能力。

100 层不够就 200 层，200 层不够就 400 层。

每层都是独立的一组参数，参数量直接拉满。

OpenMythos 走了一条完全不同的路：它不堆层数，而是让同一组权重反复跑很多遍。

你可以理解为：传统模型像读一本书，翻一页就是一页，翻完了就完了。OpenMythos 像是让一个人反复读同一段内容，每读一遍都更深入地理解一次。

推理深度不再取决于你有多少参数，而是你愿意让模型"想"多少遍。

效果怎么样？

770M 参数的循环模型，能匹敌 1.3B 的传统 Transformer。同样的效果，参数量省了快一半。

开源地址：https://github.com/kyegomez/OpenMythos

架构亮点

OpenMythos 的架构分三段：前奏层（Prelude）、循环块（Recurrent Block）、尾声层（Coda）。

前奏和尾声就是普通的 Transformer 层，跑一遍就过。中间的循环块是核心，同一组权重循环跑 T 次。

这里挑三个最值得说的点。

循环推理，越想越深

循环块每跑一轮，都会把当前状态和原始输入重新混合。不是简单的重复计算，而是每轮都在前一轮的基础上做更深一层的推理。

最厉害的是深度外推能力。

训练的时候让模型跑 16 轮循环，推理的时候你可以直接让它跑 24 轮甚至 32 轮，模型从来没见过这么深的推理链，但依然能泛化。

简单的问题少跑几轮，难的问题多跑几轮，不用改模型，改个参数就行。

MoE + MLA，省显存还能选专家

循环块里塞了混合专家系统（MoE），用的是 DeepSeekMoE 那套细粒度路由机制。

不同的循环深度可以激活不同的专家子集，相当于同一组权重在不同的循环轮次里干不同的活。

注意力部分支持两种后端：一种是 Multi-Latent Attention（MLA），来自 DeepSeek-V2，KV 缓存能缩小 10 到 20 倍

另一种是 Grouped Query Attention（GQA），支持 Flash Attention 2 加速。两种可以切换。

还有一个 Adaptive Computation Time（ACT）机制，让模型自己学会在哪个位置停下来。

简单的 token 早点退出，难的 token 多算几轮，全在同一个 batch 里搞定。

训练不会炸的硬核保证

循环 Transformer 一直有个老大难问题：训练不稳定。同一组权重反复跑，梯度容易爆炸或者消失，历史上很多人尝试过都折在这了。

OpenMythos 的解法是 LTI 注入。它把状态更新做成一个线性时不变系统的离散化，注入矩阵 A 通过零阶保持离散化构造，谱半径构造性地保证严格小于 1。不管你学习率设多少，训练过程在数学上就是稳定的。

所有计算都在对数空间里做，还加了 clamp 防止 float32 精度溢出。这个稳定性保证不是靠调参调出来的，是靠数学构造出来的。

争议与真实状态

说了这么多亮点，也该说实话了。

OpenMythos 目前没有训练好的权重，没有发布的 benchmark 数据，没有任何实际的推理输出样本。

它能编译通过，架构是对的，但还没有真正跑出结果。

GitHub Issues 里的讨论非常两极化。

有人在做第三方的 benchmark 尝试：

有人提了 Flash Attention 和混合精度训练的优化建议。

也有人直接在 issue 开骂。。。

还有人请求官方发布 benchmark，目前还没有回应。

所以 OpenMythos 的定位很明确：这是一个架构假设的代码实现，不是可以直接用的产品。

它验证的是如果 Claude Mythos 的架构真的是循环深度 Transformer，那它大概长这样。

这个定位本身就很有意思。

在开源 AI 领域，大部分项目都是在复现已有的论文。

OpenMythos 是在复现一个从未被确认存在的架构。

如何使用

安装很简单：

pip install open-mythos

项目预置了从 1B 到 1T 的七种模型配置：

import torchfrom open_mythos import OpenMythos, mythos_1bfrom open_mythos.tokenizer import MythosTokenizer
# 加载 1B 配置config = mythos_1b()model = OpenMythos(config)tokenizer = MythosTokenizer()# 推理生成ids = torch.tensor([tokenizer.encode("Explain quantum computing")])output = model.generate(ids, max_new_tokens=512, temperature=0.7)

如果要用 GQA 注意力后端：

config = mythos_3b()config.attn_type = "gqa"config.n_kv_heads = 8model = OpenMythos(config)

训练脚本在 training/ 目录下，支持 PyTorch FSDP 分布式训练，默认用的是 FineWeb-Edu 数据集。

OpenMythos 把 AI 领域的 Scaling Debate 从堆多少参数推向了推理时算多少轮。

不管 Claude Mythos 到底是不是这个架构，循环深度 Transformer 本身就是一个值得关注的方向。

770M 打平 1.3B，省的不只是参数，更是训练成本和部署门槛。

至于它是不是真的复现了 Mythos，现在还无法验证。但至少，它给了一个足够具体的假设，具体到可以被证伪。

点击下方卡片，关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目，如果你懒得翻文章一个个找，你直接关注微信公众号：逛逛 GitHub ，后台对话聊天就行了：

AI I024

2026年5月7日星期四

GitHub狂揽1。1万Star：22岁开发者逆向工程Claude Mythos，开源省半参数

Tags:

AI开源项目

大模型架构

循环深度推理

参数效率

逆向工程

没有评论:

发表评论

GitHub狂揽1。1万Star：22岁开发者逆向工程Claude Mythos，开源省半参数

标签

2026年5月7日星期四

GitHub狂揽1。1万Star：22岁开发者逆向工程Claude Mythos，开源省半参数

Tags: AI开源项目 大模型架构 循环深度推理 参数效率 逆向工程

没有评论:

发表评论

GitHub狂揽1。1万Star：22岁开发者逆向工程Claude Mythos，开源省半参数

Tags:

AI开源项目

大模型架构

循环深度推理

参数效率

逆向工程