2025年9月7日星期日

美团重磅开源 560B 大模型LongCat,超越DeepSeek v3。1、Qwen3,登顶 Agentic 任务新SOTA!

近日由美团开源的 Agentic 混合专家模型 (MoE) LongCat-Flash 这是 Agentic

图片近日由美团开源的 Agentic 混合专家模型 (MoE) LongCat-Flash 这是 Agentic 领域的新 SOTA 基础模型,在 Agentic 任务中超越 DeepSeek v3.1、Qwen3 等一众领先模型。现已在 huggingface LongCat-Flash-Chat上线。该模型由美团 LongCat 团队发布,具有以下特点:

  • 总参数 560B
  • 每次激活token 186 亿至 313 亿(平均 270 亿)
  • 512 位 FFN 专家和 256 位零计算专家
  • 用于计算-通信重叠的快捷连接结构(ScMoE)
  • 多头潜在注意力(MLA)

美团正式发布并开源LongCat-Flash-Chat,动态计算开启高效AI 时代- 美团技术团队

多项基准测试表明,LongCat-Flash 作为非思考型基础模型,仅需激活少量参数即可获得与领先主流模型相当的性能,尤其在智能体任务中表现出色。此外,由于其以推理效率为导向的设计和创新,LongCat-Flash 展现出显著更快的推理速度,使其更适用于复杂且耗时的智能体应用。

图片

相关链接

  • 论文:https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf
  • 试用: https://huggingface.co/meituan-longcat- Github: https://github.com/meituan-longcat
  • 主页: https://longcat.ai
图片

模型介绍

LongCat-Flash 是一个强大高效的语言模型,拥有 5600 亿个参数,并采用创新的混合专家 (MoE) 架构。该模型采用动态计算机制,可根据上下文需求激活 186 亿∼313 亿个参数(平均 ∼ 270 亿个),从而优化计算效率和性能。为了实现更高的训练和推理效率,我们采用了快捷连接架构,扩展了计算-通信重叠窗口,以经济高效的方式实现了每秒超过 100 个令牌 (TPS) 的推理速度。我们全面的训练和扩展策略确保了稳定高效的训练,而量身定制的数据策略则提升了模型性能。

LongCat-Flash-Chat,这是一个非思考基础模型,在领先模型中具有极高的性能竞争力,在代理任务中具有非凡的优势。

主要特点

可扩展的架构设计,提高计算效率

LongCat-Flash 的设计和优化遵循两个关键原则:高效的计算利用率以及高效的训练和推理。具体而言,(1)由于并非所有 token 都平等,我们在 MoE 块中引入了零计算专家机制,根据重要性为重要 token 分配动态计算预算,即根据上下文需求激活 186 亿到 313 亿个参数(总共 5600 亿个参数)。为确保计算负载的一致性,我们采用由 PID 控制器调整的专家偏差,平均每个 token 激活约 270 亿个参数。(2)由于通信开销成为 MoE 模型扩展的瓶颈,我们结合了快捷连接 MoE(ScMoE)设计来扩展计算-通信重叠窗口。结合定制的基础架构优化,此设计支持在数万个加速器以上的大规模上进行训练,并以高吞吐量和低延迟进行推理。

有效的模型扩展策略

有效且高效地扩展模型规模仍然是策略设计中的一个关键挑战。为此,我们开发了一个全面的稳定性和扩展框架,用于稳健地训练大规模模型:

  1. 我们成功地将超参数迁移策略应用于如此大的模型,通过利用具有理论保证的较小代理模型的结果来预测最佳超参数配置。

  2. 我们使用基于改进的半规模检查点的模型增长机制来初始化模型,与传统初始化方法相比,获得了更高的性能。

  3. 多管齐下的稳定性套件结合了原则性的路由器梯度平衡、用于抑制大量激活的隐藏 z 损失以及微调的优化器配置。

  4. 为了增强大规模集群训练的可靠性,我们引入了确定性计算。这保证了实验的精确可重复性,并能够在训练过程中检测 SDC(静默数据损坏)。这些干预措施确保 LongCat-Flash 的训练保持稳定,不会出现无法挽回的损失峰值。

代理能力的多阶段训练流程

LongCat-Flash 通过精心设计的流水线,被赋予了先进的智能体行为。初期工作重点是构建更适合智能体后训练的基础模型,为此我们设计了一种两阶段的预训练数据融合策略,以集中推理密集型领域数据。在训练中期,我们增强了推理和编码能力,并将上下文长度扩展至 128k,以满足智能体后训练的需求。在此先进的基础模型的基础上,我们进行了多阶段后训练。鉴于高质量、高难度的智能体任务训练问题的稀缺性,我们设计了一个多智能体合成框架,该框架从三个维度(即信息处理、工具集复杂性和用户交互)定义任务难度,并使用专门的控制器来生成需要迭代推理和环境交互的复杂任务。

感谢你看到这里,添加小助手 AIGC_Tech 加入官方 AIGC读者交流群,下方扫码加入 AIGC Studio 星球,获取前沿AI应用、AIGC实践教程、大厂面试经验、AI学习路线以及IT类入门到精通学习资料等,欢迎一起交流学习💗~

图片

没有评论:

发表评论

基于RPA与AI智能体的微信自动化技术解析

一直以来都有很多客户找我做智能客服,不管是基于知识库的还是基于大模型的,大家都希望接入个人微信号      一直以来都有很多客户找我做智能客服,不管是基于知识库的还是基于大模型的,大家都会提出一个需求,就是能不能接入微信,让个人号自动回复。一直以来我都没有做成功,主要是怕违规...