2026年3月16日星期一

企业智能体新大脑:Yuan3。0 Ultra万亿模型开源,训练效率提升49%

Yuan3.0 Ultra万亿参数多模态大模型重磅开源!通过LAEP裁减冗余专家,参数压缩33%同时训练效率提升49%,测试损失反降。改进RIRM减少Agent推理过度反思,精度提升16.33%。适合企业智能体开发,GitHub与论文已公开。

Tags:

当下,用 OpenClaw 等工具构建智能体已成为 AI 圈的现象级趋势。

但企业和开发者在实操中却频频遭遇智能体 "失忆"、处理复杂文档宕机、长链路任务逻辑崩盘等落地痛点。

企业级 Agent 要想真正干活不翻车,核心在于为其匹配一个足够强大的「大脑」。

它不仅需要精准理解图文表格等多模态信息,更要在复杂的企业工作流中,稳定且高效地完成知识整合、工具调用与多步决策。

为此,作为业界仅有的三个万亿级开源多模态大模型之一,Yuan3.0 Ultra 为企业智能体场景强化能力,实现更少算力、更高智能。

通过强化多模态理解、检索增强与复杂推理能力,并大幅优化长链路推理效率,以减少过度思考,能够完美嵌入真实的业务环境,成为支撑智能体准确、稳定执行复杂任务的坚实底座。

在上周的《万亿模型养虾,Yuan3.0 万亿参数实操 Show》直播中,YuanLab.ai 团队硬核展现了 Yuan 3.0 Ultra 赋能 Agent 跑通复杂业务全流程的真实表现。

目前,Yuan 3.0Ultra 的模型权重与技术报告已全面开源,欢迎各位开发者与企业伙伴部署使用。

GitHub:https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra

MoE 架构的核心困境:专家负载分化问题

如果把 MoE 架构的大模型比作一个百人研发团队,它的核心优势本该是 "专业分工、高效协作":

路由网络把每个 token 分配给对应的 "专家模块",只激活少量专家完成计算,既保证了模型的总容量上限,又能控制单次推理的计算开销。

但在真实的工程实践中,这个理想模型却出现了严重的 "团队管理失控"。YuanLab.ai 团队在研究中发现,MoE模型预训练过程中的专家负载演化,呈现出两阶段规律:

第一阶段为 "初始过渡阶段":训练早期受随机初始化影响,专家负载波动剧烈,同一专家收到的 token 数量在数量级上存在差异。

第二阶段为 "稳定阶段":负载趋于稳定,但稳定并不意味着均衡,实验数据显示,在不施加任何均衡约束的条件下,第 32 层负载最高与最低专家间的 token 比値达 497.4×。

更关键的是,一旦进入稳定阶段,各专家的负载排名就基本固定,分化具有结构固化性。

image1

预训练过程中各层专家 token 分布的演化趋势(左列)及稳定阶段负载分布(右列)。

简单来说,就是少数几个专家干了绝大多数的活,部分专家全程 "摸鱼",几乎没有参与有效学习。

更棘手的是,行业长期以来的解决方案,始终陷入 "精度与均衡不可兼得" 的死局。

Mixtral、DeepSeek-V3 等主流 MoE 模型普遍依赖辅助损失函数来约束专家利用率,却始终无法突破底层困境:准确性与负载均衡之间存在结构性权衡。

系数调大(如 0.01)则负载得到均衡但模型精度下降;系数调小(如 0.0001)则精度有保障但同层内最大 token 差距仍可达 13.6 倍。

DeepSeek-V3 选择 0.0001 这一极小系数,本质上是在二者之间的折中。以强制均衡损失对抗训练中自然形成的分工趋势,这一方向本身就値得重新审视。

LAEP:基于学习分工结构的自适应裁剪方法

MoE 专家的负载分化并非简单的系统调度偏差,更大可能性是因为模型在大规模训练过程中自然形成的功能专一化结构(Functional Specialization)。

在长期训练中,不同专家会逐渐对特定输入模式形成稳定偏好,从而在模型内部涌现出类似"专业模块"的分工格局。

这一现象与人类大脑的功能专一化机制具有明显的结构相似性:视觉皮层主要处理图像与空间信息,布罗卡区参与语言组织与表达,海马体负责新记忆的编码与巩固。

这些功能区域的分化并非外部显式设计,而是在神经系统发育与长期经验积累过程中逐渐形成的稳定结构。

基于这一认识,优化目标不应简单地消除专家分化,而应区分具有功能意义的有效分化与长期低贡献的冗余结构。

LAEP 正是基于这一判断,利用预训练过程中自然积累的专家负载统计识别并移除冗余专家,在不引入额外损失函数、也不依赖任何下游任务数据的情况下实现结构优化。

LAEP(Layer-Adaptive Expert Pruning)通过裁剪判据和专家重排两步精准裁剪冗余专家并提高计算效率:

第一步,是无偏的冗余专家识别。 LAEP以模型的每一层为单位独立判断,通过两个筛选条件的交集确定待移除专家:个体负载过低(低于层内平均的一定比例),且这批专家的累积贡献可忽略(不超过层内总 token 的一定比例)。两个条件的互补机制,既防止误删具有功能的专家,也约束单轮裁剪总量。

第二步,利用专家重排实现负载平滑。裁剪完成后,LAEP 进一步引入专家重排算法:依据 token 负载统计对专家排序,以贪心策略将高负载与低负载专家交替分配到各计算设备,逐步平滑设备间负载分布,解决大规模分布式训练中的设备级不均衡问题。

最终,实现了亮眼的优化效果:

LAEP 将 Yuan3.0 Ultra 将参数从 1515B 压缩至 1010B(减少33.3%),训练 TFLOPS 从 62.14 提升至92.60,总效率提升 49%,专家裁剪贡献 32.4%,专家重排额外贡献 15.9%。

对比辅助损失方法(TFLOPS 约为 80,且需将损失系数调至远高于正常实践的 0.01),LAEP 在不调整任何训练超参数的情况下超越了这一水平。

image2

Yuan3.0 Ultra 采用 LAEP +专家重排机制有效提升机制训练效率

尤为关键的是:裁剪后的模型测试损失(1.658)反而低于未裁剪基准(1.661)。移除低贡献专家,不仅不损害模型性能,适度裁剪反而提升了整体学习效率,这与辅助损失方法 "均衡代价是精度下降" 形成直接对比。

image3

Yuan3.0 Ultra 模型参数与训练效率。

改进 RIRM,大幅减少 Agent 链路的 "无效思考"

解决了训练阶段的结构冗余,Yuan3.0 Ultra 把目光投向了推理阶段的另一大核心浪费,大模型的 "过度反思",而这一问题在 Agent 场景中,被放大到了极致。

在单轮对话中,模型在得出正确答案后反复验证、持续推演,只是多消耗一些token成本;但在Agent的连续任务链中,上一步的冗余输出,会直接成为下一步的上下文输入,单步的无效反思,会以任务步骤数为系数持续叠加,不仅会成倍增加算力成本,还会拉长系统响应延迟,甚至在反复推演中引入额外错误,导致整条任务链执行失败。

在 Yuan3.0 Ultra Base 的快思考强化学习(Fast-thinking RL)训练中,团队观察发现:模型在给出正确答案后并不主动终止推理,反思步骤超过 3 次的正确样本占相当比例,超过 10 次的情况同样不鲜见。

image4

Yuan3.0 Ultra 快思考 RL 训练中正确样本的反思步骤频率分布。

针对这一问题,Yuan3.0 Ultra 采用 RAPO(Reflection-aware Adaptive Policy Optimization)框架,并对其核心组件「反思抑制奖励机制(RIRM)」进行了改进:引入随反思步骤数动态变化的奖励模式。答案正确时反思越少奖励越高,超过上限(默认 3 次)奖励归零;答案错误时反思步骤越多惩罚越重。这一连续奖励梯度取代了原先糟糙的步骤约束方式,对 overthinking 的抑制更加精准。

量化结果表明,改进后的 RIRM 使训练精度提升 16.33%,同时将输出 token 长度降低 14.38%,精度上升、冗余下降,二者同向优化。在 Agent 的多步骤任务链中,单步推理冗余会以步骤数为系数持续累积,RIRM 将效率提升从单步收益转化为链路级的叠加收益。

image5

训练动态。左:训练精度稳步提升;右:平均响应长度持续下降。

从训练到推理,打通大模型效率优化闭环

Yuan3.0 Ultra 的所有技术创新,最终都指向同一个目标:让大模型的强大能力,真正转化为企业可落地、可负担、可稳定使用的业务价值。

LAEP 针对训练阶段的结构冗余,RIRM 针对推理阶段的思考冗余:前者决定模型能力如何形成,后者决定模型能力如何被高效调用。二者共同构成 Yuan3.0 Ultra 面向 Agent 场景的完整效率优化框架。

Yuan3.0 Ultra 的技术内核指向的是一条更具方法论意义的发展路径:训练阶段,顺应 MoE 专家分化的学习规律,裁除冗余保留有效分工;推理阶段,使模型在不同复杂度任务下精准控制推理深度。

从 Yuan3.0 Flash 到 Yuan3.0 Ultra,技术演进脉络清晰:Flash版本聚焦推理端效率,Ultra版本聚焦训练端效率,二者共同指向同一目标:提升单位算力所产生的真实智能密度。

  • GitHub:https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra

  • 论文:https://arxiv.org/abs/2601.14327

  • 模型下载:https://huggingface.co/YuanLabAI/Yuan3.0-Ultra-int4

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

没有评论:

发表评论

清华美团3DThinker:无需3D标注,让VLM学会空间推理,7大基准超越现有方法

清华美团联合提出3DThinker框架,让多模态大模型在推理中自动生成3D心智表征,无需3D标注或外部工具。通过双阶段训练,在MindCube-Tiny等7大空间推理基准上全面超越现有方法,为AI研究者与开发者提供新思路。 Tags: 3DThinker 空间推理 ...