2025年7月16日星期三

月之暗面开源万亿参数“王炸”Kimi K2,混合专家语言模型新标杆。

7月11号,月之暗面推出了 Kimi K2,这是一款先进的混合专家 (MoE) 语言模型,拥有 320 亿个激




图片

7月11号,月之暗面推出了 Kimi K2,这是一款先进的混合专家 (MoE) 语言模型,拥有 320 亿个激活参数和 1 万亿个总参数。Kimi K2 采用 Muon 优化器进行训练,在前沿知识、推理和编码任务中表现出色,同时针对代理能力进行了精心优化。

Kimi K2 - The DeepSeek Moment for Agentic Coding - YouTube

主要特点

  • 大规模训练:在 15.5T 个令牌上预先训练 1T 参数 MoE 模型,且训练不稳定性为零。
  • MuonClip 优化器:我们将 Muon 优化器应用于前所未有的规模,并开发新的优化技术来解决扩展过程中的不稳定性问题。
  • 代理智能:专为工具使用、推理和自主解决问题而设计。

模型变体

  • Kimi-K2-Base:基础模型,对于想要完全控制微调和定制解决方案的研究人员和建设者来说是一个强有力的开端。
  • Kimi-K2-Instruct:后训练模型,最适合用于即兴、通用聊天和代理体验。它是一款无需长时间思考的反射级模型。
图片

unsetunset模型总结unsetunset

图片

unsetunset使用示例unsetunset

给 Kimi K2 你的工具并描述你的任务。 它会自动理解如何使用工具并完成工作。您无需为代理应用程序编写任何复杂的工作流程。

图片
图片
使用 Kimi K2 规划您梦想中的 2025 年伦敦酷玩乐队巡演,它通过 17 次无缝工具调用为您精心打造计划,涵盖搜索、日历、Gmail、航班、Airbnb 和餐厅预订等功能。
使用 Kimi K2 规划您梦想中的 2025 年伦敦酷玩乐队巡演,它通过 17 次无缝工具调用为您精心打造计划,涵盖搜索、日历、Gmail、航班、Airbnb 和餐厅预订等功能。
将 Flask 项目转换为 Rust 时,Kimi K2 会系统地重构代码库并运行性能基准测试,以确保获得可靠的结果
将 Flask 项目转换为 Rust 时,Kimi K2 会系统地重构代码库并运行性能基准测试,以确保获得可靠的结果

unsetunset相关链接unsetunset

  • 主页:https://www.moonshot.ai/
  • 模型:https://huggingface.co/moonshotai
  • 技术报告:https://t.co/2RP7U3iakZ
  • GitHub:https://github.com/moonshotai/Kimi-K2
图片

unsetunsetKimi K2 基准测试unsetunset

评估结果 下表详细列出了 Kimi-K2-Instruct 的性能,表明其在一系列任务中的表现堪比甚至超越了最新的开源和专有模型。该模型在知识密集型和推理基准测试中表现出色,在自然语言理解、数学和科学、代码生成和代理工具使用方面均取得了优异的成绩图片

图片

unsetunset开放代理智能unsetunset

预训练是代理智能 (Agentic Intelligence)的关键基础,它建立先验知识,使强化学习 (RL) 探索变得易于处理、高效且可推广。然而,正如 Ilya Sutskever 所观察到的,人类数据是一种有限的"化石燃料",其增长速度远远落后于计算速度。这使得预训练期间的代币效率成为 AI 缩放定律中一个新的关键系数。 在"体验时代"(David Silver,Richard Sutton,2025)中,后训练至关重要。在这个时代,LLM 越来越多地从自身生成的互动中学习,获得回报,使他们摆脱人类数据的限制,并超越人类的能力。 Kimi K2 正是基于这些见解而打造的。

unsetunset代理能力unsetunset

Kimi K2 的增强代理能力源自两个重要方面——大规模代理数据合成和通用强化学习。

用于工具使用学习的大规模代理数据合成: 为了教会模型复杂的工具使用能力,我们受 ACEBench 启发,开发了一个全面的流程,可以大规模模拟现实世界的工具使用场景。我们的方法系统地演化了数百个包含数千种工具(包括真实的 MCP(模型上下文协议)工具和合成工具)的领域,并生成了数百个拥有不同工具集的代理。 所有任务均基于评分标准,从而实现一致的评估。代理与模拟环境和用户代理交互,创建逼真的多轮工具使用场景。LLM 评委根据任务评分标准评估模拟结果,筛选出高质量的训练数据。这种可扩展的流程能够生成多样化、高质量的数据,为大规模拒绝采样和强化学习奠定基础。图片通用强化学习: 关键挑战在于将强化学习应用于具有可验证和不可验证奖励的任务;可验证任务的典型示例是数学和编程竞赛,而撰写研究报告通常被视为不可验证的任务。除了可验证奖励之外,我们的通用强化学习系统还采用自我判断机制,让模型充当自身的"批评家",为不可验证任务提供可扩展的、基于评分标准的反馈。 同时,使用可验证奖励的在线策略rollout来持续更新评论家,使评论家不断提高其在最新策略上的评估准确性。这可以被视为一种利用可验证奖励来改进不可验证奖励估计的方法

unsetunsetKimi K2试用unsetunset

Kimi 的网页版和移动版用户均可免费选择并使用全新的 Kimi K2 模型。目前网页版和 App 版的 MCP 功能仍在开发中。在未来几周内推出这些功能。在此期间可以试用 Researcher,抢先体验其代理功能。请注意,Kimi K2 尚不支持视觉功能。

  • 试用链接:https://www.kimi.com/

通过 API 使用 Kimi K2

Kimi 平台提供与 OpenAI/Anthropic 兼容的接口,方便您轻松将现有应用程序适配至 Kimi K2。我们鼓励开发者探索我们的工具调用 API,以构建代理应用程序。如需了解更多信息,请访问

  • API试用:platform.moonshot.ai

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

没有评论:

发表评论

DeepSeek使用率断崖式下跌?

半年前,DeepSeek R1 的推出轰动了全球,无论东西方都是火的一塌糊涂,更是被外网称为 AI 领域的 Sputnik 时刻。 一夜之间,DeepSeek 相关的话题席卷了各大社交平台。上线后仅20天,每日活跃用户数量(DAU)就激增到 2215 万,成为全球增速最快的 ...