2026年5月7日星期四

GitHub狂揽1。1万Star:22岁开发者逆向工程Claude Mythos,开源省半参数

OpenMythos是22岁开发者Kye Gomez逆向工程Claude Mythos架构的开源项目,用纯PyTorch实现循环深度Transformer。核心亮点:770M参数模型可匹敌1.3B传统Transformer,参数量省近一半;支持深度外推与自适应计算时间;数学保证训练稳定性。目前项目无训练好的权重和benchmark数据,属于架构假设的代码实现,适合AI研究人员探索循环推理机制。

Tags:

上个月 Anthropic 放出了一个叫 Claude Mythos Preview 的模型。

这个模型强到离谱。

图片

英国 AI 安全研究所对它做了测试,发现它能自主完成一整套企业网络攻击:32 个步骤的攻击链,人类专家估计要花 20 个小时,它自己跑完了。

专家级 CTF 挑战,成功率 73%。

然后 Anthropic 决定:不对公众开放。

图片

Mythos Preview 只开放给了 40 多家技术公司的联盟,属于 Project Glasswing 计划,专门用来做关键基础设施的安全评估。

Anthropic 明确说了,没有计划让它公开发布。

能力太强,风险太高,锁起来了。

但问题来了:Anthropic 从来没公开过 Mythos 的技术架构。没有论文,没有技术报告,连架构细节都讳莫如深。

然后一个 22 岁的开源开发者 Kye Gomez,硬是从公开的学术论文里拼凑线索,用纯 PyTorch 把这个架构假设给“复现”了出来。

图片

项目叫 OpenMythos,开源 4 天就拿下了近 7000 Star,现在已经 1.1 万了。

GitHub Issues 里直接吵翻了。

有人说是天才之作,有人开 issue 叫 "This is still dumb"。

01

开源项目简介

先说 OpenMythos 到底干了什么。

传统的大模型,比如 GPT、LLaMA,都是靠堆层数来提升能力。

100 层不够就 200 层,200 层不够就 400 层。

每层都是独立的一组参数,参数量直接拉满。

OpenMythos 走了一条完全不同的路:它不堆层数,而是让同一组权重反复跑很多遍。

你可以理解为:传统模型像读一本书,翻一页就是一页,翻完了就完了。OpenMythos 像是让一个人反复读同一段内容,每读一遍都更深入地理解一次。

推理深度不再取决于你有多少参数,而是你愿意让模型"想"多少遍。

图片

效果怎么样?

770M 参数的循环模型,能匹敌 1.3B 的传统 Transformer。同样的效果,参数量省了快一半。

开源地址:https://github.com/kyegomez/OpenMythos

02

架构亮点

OpenMythos 的架构分三段:前奏层(Prelude)、循环块(Recurrent Block)、尾声层(Coda)。

前奏和尾声就是普通的 Transformer 层,跑一遍就过。中间的循环块是核心,同一组权重循环跑 T 次。

这里挑三个最值得说的点。

循环推理,越想越深

循环块每跑一轮,都会把当前状态和原始输入重新混合。不是简单的重复计算,而是每轮都在前一轮的基础上做更深一层的推理。

最厉害的是深度外推能力。

训练的时候让模型跑 16 轮循环,推理的时候你可以直接让它跑 24 轮甚至 32 轮,模型从来没见过这么深的推理链,但依然能泛化。

简单的问题少跑几轮,难的问题多跑几轮,不用改模型,改个参数就行。

MoE + MLA,省显存还能选专家

循环块里塞了混合专家系统(MoE),用的是 DeepSeekMoE 那套细粒度路由机制。

不同的循环深度可以激活不同的专家子集,相当于同一组权重在不同的循环轮次里干不同的活。

注意力部分支持两种后端:一种是 Multi-Latent Attention(MLA),来自 DeepSeek-V2,KV 缓存能缩小 10 到 20 倍

另一种是 Grouped Query Attention(GQA),支持 Flash Attention 2 加速。两种可以切换。

还有一个 Adaptive Computation Time(ACT)机制,让模型自己学会在哪个位置停下来。

简单的 token 早点退出,难的 token 多算几轮,全在同一个 batch 里搞定。

训练不会炸的硬核保证

循环 Transformer 一直有个老大难问题:训练不稳定。同一组权重反复跑,梯度容易爆炸或者消失,历史上很多人尝试过都折在这了。

OpenMythos 的解法是 LTI 注入。它把状态更新做成一个线性时不变系统的离散化,注入矩阵 A 通过零阶保持离散化构造,谱半径构造性地保证严格小于 1。不管你学习率设多少,训练过程在数学上就是稳定的。

所有计算都在对数空间里做,还加了 clamp 防止 float32 精度溢出。这个稳定性保证不是靠调参调出来的,是靠数学构造出来的。

03

争议与真实状态

说了这么多亮点,也该说实话了。

OpenMythos 目前没有训练好的权重,没有发布的 benchmark 数据,没有任何实际的推理输出样本。

它能编译通过,架构是对的,但还没有真正跑出结果。

GitHub Issues 里的讨论非常两极化。

有人在做第三方的 benchmark 尝试:

图片

有人提了 Flash Attention 和混合精度训练的优化建议。

也有人直接在 issue 开骂。。。

图片

还有人请求官方发布 benchmark,目前还没有回应。

所以 OpenMythos 的定位很明确:这是一个架构假设的代码实现,不是可以直接用的产品。

它验证的是如果 Claude Mythos 的架构真的是循环深度 Transformer,那它大概长这样。

这个定位本身就很有意思。

在开源 AI 领域,大部分项目都是在复现已有的论文。

OpenMythos 是在复现一个从未被确认存在的架构。

04

如何使用

安装很简单:

pip install open-mythos

项目预置了从 1B 到 1T 的七种模型配置:

import torchfrom open_mythos import OpenMythos, mythos_1bfrom open_mythos.tokenizer import MythosTokenizer
# 加载 1B 配置config = mythos_1b()model = OpenMythos(config)tokenizer = MythosTokenizer()# 推理生成ids = torch.tensor([tokenizer.encode("Explain quantum computing")])output = model.generate(ids, max_new_tokens=512, temperature=0.7)

如果要用 GQA 注意力后端:

config = mythos_3b()config.attn_type = "gqa"config.n_kv_heads = 8model = OpenMythos(config)

训练脚本在 training/ 目录下,支持 PyTorch FSDP 分布式训练,默认用的是 FineWeb-Edu 数据集。

OpenMythos 把 AI 领域的 Scaling Debate 从堆多少参数推向了推理时算多少轮

不管 Claude Mythos 到底是不是这个架构,循环深度 Transformer 本身就是一个值得关注的方向。

770M 打平 1.3B,省的不只是参数,更是训练成本和部署门槛。

至于它是不是真的复现了 Mythos,现在还无法验证。但至少,它给了一个足够具体的假设,具体到可以被证伪。

05

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

2026年5月6日星期三

GPT2。0+Seedance2。0:宫格图打造流畅运镜视频教程

使用GPT2.0和Seedance2.0,通过宫格图技术制作流畅运镜视频。工作流链接在飞书中,适合AI视频创作者学习。

Tags:

工作流在飞书里



链接:

https://my.feishu.cn/wiki/KrKow7S6ziML2IkuhWdc0vlQnnc?from=from_copylink



免费在线下载视频音频图片工具,支持10000+网站,永久免注册

介绍一款免费在线下载工具及浏览器插件SnapWC,支持从超过10000个网站下载视频、音频和图片。只需粘贴链接或安装插件自动嗅探资源,即可获取高清文件。插件采用并发下载技术,速度提升500%,无需注册且永久免费,所有数据本地处理安全可靠。适合需要批量保存网络媒体资源的普通用户或内容创作者。

Tags:

大家好,从今天开始,高粱seo作出了一个非常重要的决定,就是往后分享的ai短视频相关工具,下载链接或者ai网站链接将会公开放置于评论区,以此回报各位粉丝默默的支持高粱seo维护公众号10年的时间,在此高粱seo真情的感谢大家,谢谢各位。
今天高粱seo给大家带来一个在线在线免费下载视频、音频和图片,支持10000+网站,操作简单,只需粘贴视频链接,即可获取高清视频、音频和图片下载链接。高粱seo认为这是大家都非常需要的一个ai短视频下载网站,因为之前分享的有些下载工具已失效。
图片

如何使用

1. 复制链接

从任何视频平台复制视频链接

2. 粘贴链接

将链接粘贴到输入框中

3. 下载资源

选择格式并下载您需要的资源

如果你遇到下载不了的话,可以安装安装 SnapWC 浏览器插件,自动检测视频、直播、音频、字幕和图片,一键即可下载。
图片
这个浏览器插件的优势如下:

一键下载

自动检测网页上可下载的视频、直播、音频、字幕和图片,创新嗅探技术让资源识别率更高,一键点击即可下载所需资源。

高速稳定

采用先进的并发下载技术,确保快速且稳定的下载体验。对比同类型插件,我们将下载速度提升了500%以上。

100%安全免费

插件无需注册即可使用,并且永久免费。我们重视用户隐私,所有数据均在本地处理,您的信息安全是我们的首要任务。

只需三步轻松保存网页上的媒体资源

1、打开网站页面

访问你喜欢的视频网站并播放视频资源,SnapWC 会自动识别资源。

2、点击插件图标

点击浏览器右上角的 SnapWC 插件图标,查看已识别的媒体资源列表。

3、选择文件并下载

选择您想要的资源并点击下载按钮,下载中请保持页面开启直至下载完成。

图片

如果遇到问题的话,可以看看网站提供的一些解决方法:

图片

目前用过的伙伴都对这个ai网站点赞了,高粱seo相信大家也一定会的,因为实在太简单太好用了,下载无忧。

好了,今天就分享到这里,高粱seo将会把ai工具整理好分享到【评论区
】。如果你也有一些新颖的ai技术想法,可以跟高粱seo交流下。同时如果不想继续苦逼地上班,想学习更多纯干货或者纯技术,你也可以加个人微信号seo-boy 或者 xtdseo

DeepSeek-TUI开源终端AI编程助手:免费替代Claude Code,暴涨11000+星

DeepSeek-TUI是开源终端编程Agent,基于DeepSeek V4模型,实现Claude Code核心功能(文件读写、shell命令、Git操作等)。支持1M token上下文、RLM并行调度(16个Flash子任务协同)、中文界面、Git快照回滚。npm或二进制一键安装,完全免费。适合开发者提升编程效率,技术门槛被AI重构。

Tags:

这两年,国内开发者对 Claude Code 的心情,可以用一个词概括,就是「眼馋」。

Anthropic 一系列措施,且高额的 API 账单,一直让许多人望而却步。

直到在这个五一假期,事情有了新变化。

一位叫 Hunter Bown 的独立开发者,带着他的开源项目冲上了 GitHub 热榜。

短短几天,Star 数飙到 11000+,今天还登顶了 Trending 榜首。

更妙的是,他还在社区上发了张图,用中文写了句:鲸鱼兄弟们,谢谢你们。

image-20260506162753141

这个项目叫 DeepSeek-TUI,定位非常直接,就是 DeepSeek 版的 Claude Code。

用 Rust 写的终端编程 Agent,背后跑的是 DeepSeek 刚发布不久的 V4 模型。

先说能力,Claude Code 那一套核心功能它基本都搬了过来。

文件读写、shell 命令、git 操作、网页搜索、子智能体、MCP 服务协议一个不落。

image-20260506163000503

除此之外,DeepSeek 自身的特性,也被它玩了明白。

比如思考模式流式输出,我们能在终端里看到 V4 一边推理一边写代码,整个思路过程都看得见。

再比如 1M token 上下文默认开启,一次能塞下大约一本中长篇小说的内容。

跑复杂项目的长任务,中途不会断片,这点对老代码库重构很关键。

工具里还有一个设计叫 RLM。

简单说,就是让一个主 AI 同时指挥一群更便宜的子 AI 干活。

DeepSeek V4 Flash 的输出价格只有 Pro 的三分之一左右。

image-20260506163111805

那就让一个主模型并发调度 16 个 Flash 子任务一起跑。

举个例子,让它给整个项目写文档。

主模型负责统筹结构,16 个 Flash 同时分头去读不同模块,最后再汇总成稿。

原本 Pro 串行干两个小时的活,现在十几分钟搞定,而且账单还砍掉一大半。

操作模式则分成了三档,从严到松。

Plan 只读探索,Agent 每步确认,YOLO 全自动放行。

YOLO 这个名字也很有意思,You Only Live Once,意思就是一把梭哈。

image-20260506163031621

不管选哪种模式,工作区底下都有 Git 快照兜着,翻车了也能一键回滚。

更让人意外的是,作者 Hunter 非常贴心,还考虑到了我们的使用习惯。

他把发布包托管在阿里云 OSS 和腾讯云 COS 上,还专门做了 npm 安装方式,让我们下载不再受阻。

就连终端界面都原生支持中文,配置项里直接写明了 zh-Hans。

安装也很简单,一行命令搞定。

npm install -g deepseek-tui

接着拿到 DeepSeek API Key,按提示填进去就能开始使用。

也可以通过二进制包一键安装,支持 Linux、macOS、Windows 系统。

image-20260506163330192

聊到这里,可能有人会好奇,能把 DeepSeek 玩出这种花样的,应该是个老牌极客吧?

还真不是。

Hunter 没学过计算机,本硕读的是音乐教育,毕业后还真去当了三年乐队指挥。

后来他读了 MBA,又拐进法学院专攻专利法,写代码反倒是再后来的事。

image-20260506164528607

他在个人网站上写了句话:我是音乐家,爱科学。

而打造这个项目的方式更有趣,他用的是 AI 辅助编程。

在贡献者列表能看到,单单 Claude 就提了 150 多次代码提交。

一个非科班的音乐家,用 AI 写了个给 AI 用的编程工具。

写在最后

回头看这件事,意义已经不只是又一个开源工具那么简单。

往深一层看,一个非科班的人,靠 AI 协作做出了登顶 Trending 的工程级项目。

这件事本身,就是当下最值得琢磨的信号,技术门槛正在被重构。

而再往外看一层,国产模型的生态也开始转向了。

放在两年前,这种事是不太敢想的。

一个独立开发者做完工具,主动找上门来想跟国内社区一起共建。

这种双向奔赴,确实让人欣慰。

工具已经开源,不妨装一个跑跑看就知道。

GitHub 项目地址:https://github.com/Hmbown/DeepSeek-TUI

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

GitHub狂揽1。1万Star:22岁开发者逆向工程Claude Mythos,开源省半参数

OpenMythos是22岁开发者Kye Gomez逆向工程Claude Mythos架构的开源项目,用纯PyTorch实现循环深度Transformer。核心亮点:770M参数模型可匹敌1.3B传统Transformer,参数量省近一半;支持深度外推与自适应计算时间;数学保证训...