2026年1月14日星期三

只有 4B,性能超过 Claude-4。5-Sonnet!

当全行业还在争论 30B 能否挑战万亿参数时,一个更激进的答案:4B,来了。没有万亿参数的算力堆砌,没有百万级数据的暴力灌入。

清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的 AgentCPM-Explore 智能体模型基于仅 4B 参数的模型。

在深度探索类任务上取得同尺寸模型 SOTA、越级赶上甚至超越 8B 级 SOTA 模型、比肩部分 30B 级以上和闭源大模型的效果,真正让大模型的长程任务处理能力有望部署于端侧。

AgentCPM-Explore 核心亮点一览

  • 打破参数壁垒 :首个具备 GAIA、Xbench、Browsercomp 等 8 个长难智能体任务处理能力的 4B 端侧模型,重新定义小模型性能天花板;

  • 长程深度探索 :最高可实现超过 100 轮不重复且稳定的环境交互,持续深度探索直至任务准确完成;

  • 全流程开源 :在开源模型的基础上进一步开源配套的工具沙盒统一管理调度平台 AgentDock、全异步强化学习训练框架 AgentRL、智能体能力一键式测评平台 AgentToLeaP,支持社区全流程复现与自定义扩展。

更高能力密度

端侧智能体模型 SOTA 表现

AgentCPM-Explore 在 GAIA、HLE、Browsercomp、Browsercomp(ZH)、WebWalker、FRAMES、Xbench-DeepResesarch、Seal-0 主流智能体评测基准上均展现出 极致的参数效能比

不仅取得同尺寸模型 SOTA,而且越级赶上甚至超越两倍参数量(8B 级)SOTA 模型、比肩部分 30B 级以上和闭源大模型的效果。

图片

表1:8 个 智能体评测 任务榜单

在 Xbench-DeepResearch 上 AgentCPM-Explore 的表现超越了 OpenAI-o3,Claude-4.5-Sonnet 等闭源大模型,显著超越了不同量级 SOTA 模型的表现趋势线,展现出了更高的能力密度。

图片

图 1:Xbench 数据集模型表现效果分析(注:深度搜索任务通常存在较大的采样波动(可达 20%)。AgentCPM-Explore(及 MiroThinker)采用了高标准的 Avg@8 ,相比业界的单次/3 次设定,可将波动误差控制在 2% 以内,提供最真实、可复现的性能对比)

更宽能力边界

深挖端侧智能体模型极致潜能

4B 端侧模型在 GAIA 上有希望做对几乎全部的题目! 如图,基于 AgentDock 和 AgentRL 基建下的稳定的后训练,AgentCPM-Explore 实现了相较于 Qwen3-4B-thinking-2507 的成倍效果跃升。

在允许多次尝试的情况下,能够解决 GAIA 文本任务中 95% 以上的题目。由此可见,小模型并非"能力受限",而是"潜力被低估"。在正确的训练框架下,端侧模型完全具备解决绝大多数复杂难题的潜质。

图片图2:原模型 Qwen3-4B-thinking-2507 与经过后训练的 AgentCPM-Explore 能力边界一览

更多智能行为

端侧智能体模型展现"类人"思考逻辑

在深度探索任务中,AgentCPM-Explore 打破了小模型"只会死记硬背"的刻板印象。

如视频所示,面对"美国历届总统的出生地中,哪两个城市之间东西相距最远?"这一复杂难题,它像一位经验丰富的人类研究员一样思考:

  • 它会"质疑" : 拒绝盲信工具。当发现"Brookline, MA"被列为最东端时,它判断摘要可能遗漏了关键信息,果断要求重新核查全量数据;

  • 它能"求真" : 不满足于被压缩的二手信息,主动寻找完整版原始数据,确保决策基于事实全貌;

  • 它懂"变通" : 搜索不通就爬表,路径不对就搜库。从通用搜索到 GitHub 精准定位,它能根据反馈实时调整战术;

  • 它很"执着" : 面对连续的搜索无果不气馁,而是不断寻找替代信源,直到挖掘出最可靠的数据源。

全流程开源基建

支持自定义扩展

不仅开源了模型,更开源了 从 Base 模型(GAIA 25.24%)进化至 SOTA 模型(GAIA 63.90%)的全流程代码 。

通过以下三大基建,开发者可以轻松复现性能翻倍的训练过程,并快速实现私有化部署与自定义扩展。

(1)AgentDock:工具沙盒统一管理调度平台

  • 高并发工具集成 : 原生支持 16 个 MCP 服务及百余种工具。通过多版本轮询与负载均衡机制,支持核心高频使用工具 100+QPS 高并发调用。

  • 健全容错机制 : 实现输出标准化、自动重试、服务自愈及备用工具自动切换,确保长程任务持续运行的稳定性。

  • 统一沙盒管理 : 实现任务分发、容器编排与动态路由的统一管控。智能体所在客户端仅需关注"能力接口",无需处理复杂的网络与并发细节,支持工具热插拔与弹性扩缩容。

(2)AgentRL:极简高效的异步强化学习框架

  • 零门槛接入 : 只需标准 ChatCompletions 接口即可无缝接入训练流程。

  • 极简代码架构 : 核心实现仅 7 个文件、1000+ 行代码,极大降低学习与二开门槛,方便快速验证新想法。

  • 全异步训推同卡 : 支持采样与训练在同一 GPU 上全异步流水线运行,极致压榨硬件性能。

  • 解耦与并行 : 训采完全解耦,采样进程可独立扩缩容。兼容 PyTorch 原生并行及 FSDP2/Tensor Parallel/Context Parallel,轻松支持 128K+ 长文本训练。

(3)AgentToLeaP:智能体能力一键式评测平台

  • 一键全自动化 : 支持 GAIA、HLE 等 8 个主流榜单的一键测评,一行命令即可启动全流程评测。

  • 模块化扩展 : 评测集独立管理,结果统一输出。开发者可参考文档,轻松接入自定义测试集。

端侧模型性能"以小博大"的关键点

4B 模型有限的参数容量在面对长周期、多交互的智能体任务时,容错空间极低。技术团队在实战中发现提升小模型智能体性能的三大核心挑战,并探索出了行之有效的应对方法。

以"模型融合"破解 SFT 过拟合 小模型在 SFT 阶段极易陷入"死记硬背",技术团队实验发现,仅调整Prompt 中无关的工具描述,模型性能就会大幅下滑。

这是典型的过拟合:模型牺牲了通用决策能力,记住了特定的任务模式。 技术团队采用参数融合技术,将训练后的"专用模型"与训练前的"通用模型"进行加权融合。

其背后的机制在于:通专模型一致的泛化参数得以保留,互补的专业能力得以强化,而因过拟合产生的随机噪音参数则在融合中相互抵消。

实测显示,融合后的模型在智能体任务上性能提升约 7%,有效实现了通专能力的平衡。

以"信号去噪"修正 RL 奖励偏差。 智能体任务的轨迹动辄数十步,小模型对长链路中的负面信号极其敏感。

一旦长序列在最后一步出错,传统 RL 会将惩罚回传至整条链路,导致中间正确的推理步骤也被"误杀",致使模型训练崩塌。 

技术团队实施严格的奖励信号去噪。筛选真正具备策略更新价值的轨迹,对于长步骤但最终失败的样本,不进行全轨迹惩罚,避免负面信号污染模型已学到的正确推理逻辑,保护小模型脆弱的训练。

以"信息精炼"对抗推理长文干扰。 在模型推理时,网页返回的冗长噪音对小模型影响极大。

对比实验表明,使用不同能力的模型(如 Qwen3-4B vs DeepSeek-v3.1)对上下文进行摘要,最终 GAIA 性能差异可达 10%。

技术团队引入上下文信息精炼机制,利用上下文管理工具或多模型协作的方式专门负责网页内容的过滤与摘要,在信息进入 4B 模型前完成信息过滤。

通过构建高质量的"学习环境",让小模型能聚焦于关键信息的处理,避免在海量噪声中迷失。

更多细节内容在技术报告中有详细描述。

相关链接

  • GitHub:https://github.com/OpenBMB/AgentCPM

  • HuggingFace:https://huggingface.co/openbmb/AgentCPM-Explore

  • ModelScope:https://modelscope.cn/models/OpenBMB/AgentCPM-Explore

  • GitCode:https://gitcode.com/OpenBMB/AgentCPM

  • 魔乐社区:https://modelers.cn/models/OpenBMB/AgentCPM-Explore

没有评论:

发表评论

持续暴涨!这个开源神器目测要火!

数月前,一款名为 BettaFish (微舆) 在开源圈悄然崛起,凭借其惊艳的多智能体分析系统,打破了互联网信息茧房,随后连续多日霸榜 GitHub Trending。 在持续多轮的暴涨后,项目已累积斩获 34000+ Star,成为当之无愧的现象级爆款项目。 在项目爆火之后...