AI I024: Mistral AI开源Ministral 3家族，通过级联蒸馏从大模型高效衍生出3B/8B/14B小模型，全系支持多模态与长上下文，在多项基准中超越同规模竞品，兼顾高性能与边缘部署效率

点击下方卡片，关注"AI生成未来"

👇扫码免费加入AI知识星球，如您有工作需要分享，欢迎联系：aigc_to_future

作者：Mistral AI

解读：AI生成未来

论文链接：https://arxiv.org/abs/2601.08584v1
网页链接：https://mistral.ai/news/mistral-3
开源模型：https://huggingface.co/collections/mistralai/ministral-3

亮点直击
推出 Ministral 3 系列：发布了 3B、8B 和 14B 三种参数规模的密集型语言模型，专为计算和内存受限的边缘应用设计。
全系三版本：每个尺寸均包含 Base（基础版）、Instruct（指令微调版）和 Reasoning（推理版）三个变体。
原生多模态：所有模型均具备图像理解能力。
级联蒸馏：提出了一种高效的预训练配方，通过迭代剪枝和蒸馏，以极低的算力成本从大型父模型中衍生出高性能子模型。
确认了能力差距：独立验证了更强的教师模型并不总能产生更强的学生模型（在预训练阶段），但后训练阶段仍能从更强教师中获益。

解决的问题

高昂的训练成本：现有的高性能模型（如 Qwen3、Llama3）通常需要 15 万亿到 36 万亿 token 的训练量，算力消耗巨大。
边缘端部署难题：在计算和内存受限的设备上，难以部署大规模模型，同时小模型往往性能不足。
数据效率：如何利用已有的强力大模型（如 Mistral Small 3.1 24B）来高效训练小模型，而不是从头开始。

提出的方案

级联蒸馏策略：不从零开始训练，而是以 24B 的 Mistral Small 3.1 为"父模型"，通过"剪枝-蒸馏-重复"的迭代过程，逐步生成 14B、8B 和 3B 的"子模型"。
多阶段训练：

预训练：剪枝后结合短上下文和长上下文蒸馏。
后训练（Instruct）：SFT（监督微调）+ ODPO（在线直接偏好优化）。
后训练（Reasoning）：SFT（带思维链数据）+ GRPO（强化学习）+ ODPO。

应用的技术

架构技术：分组查询注意力（GQA）、RoPE 位置编码、SwiGLU 激活函数、YaRN 长上下文扩展（支持 256k token）。
剪枝技术：基于层输入/输出激活范数比的层剪枝、基于 PCA 的隐藏层维度剪枝、基于重要性分数的 FFN 剪枝。
对齐与强化学习：使用在线直接偏好优化（ODPO）减少模型幻觉和无限生成；使用 GRPO 进行推理能力的强化学习训练。

达到的效果

极高的参数效率：Ministral 3 14B Base 模型在参数量减少 40% 且训练数据大幅减少的情况下，性能与其父模型 Mistral Small 3.1 Base 相当。
超越同级竞品：在同等尺寸下，Ministral 3 系列在多个基准测试中（如 TriviaQA, MATH）优于 Qwen 3 和 Gemma 3 系列。
强大的推理能力：Reasoning 版本在 STEM（科学、技术、工程、数学）任务上表现出色，同时保持了良好的通用对话能力。

模型架构

Ministral 3 系列基于仅解码器（decoder-only）的 Transformer 架构。

所有模型共享相同的基础架构，并根据尺寸进行特定缩放。如 表 1 所示，该系列包含三种尺寸：3B、8B 和 14B 参数，分别拥有 26、34 和 40 层。其他的架构选择包括：拥有 32 个查询头（query heads）和 8 个键值头（key-value heads）的分组查询注意力（Grouped Query Attention, GQA），RoPE 位置嵌入，SwiGLU 激活函数，以及 RMSNorm。

为了扩展长上下文，本工作使用了 YaRN 以及注意力层中基于位置的 softmax 温度缩放（position-based softmax temperature scaling）。3B 模型使用了绑定（tied）的输入-输出嵌入，以避免嵌入层参数在总参数量中占比过高。所有模型均使用 131K token 的词表，并支持高达 256K token 的上下文长度。

视觉编码器（Vision encoder）。 所有的 Ministral 3 模型均使用一个 4.1 亿（410M）参数的 ViT 作为视觉编码器以实现图像理解能力。该编码器是从 Mistral Small 3.1 Base 中复制而来并保持冻结状态，其架构与 Pixtral 中描述的一致。本工作丢弃了从 ViT 到语言模型空间的预训练投影层，并为每个模型训练了一个新的投影层。

训练方案

图 1 展示了 Ministral 3 模型的训练流程，包括预训练阶段，随后是两个不同的后训练阶段，分别用于生成指令微调（Instruct）变体和推理（Reasoning）变体。

预训练

级联蒸馏（Cascade Distillation）。 Ministral 3 模型的预训练始于 Mistral Small 3.1 Base (MS3.1) 模型。本工作使用级联蒸馏，这是一种迭代方法，用于将 MS3.1 剪枝并蒸馏为更小的后继模型。级联蒸馏是一种计算高效的流程，用于在给定预训练的大型父模型的情况下，预训练目标尺寸递减的子模型。如 算法 1 所总结，它依赖于迭代式的"剪枝-蒸馏-重复"方法：

剪枝（Prune）：通过剪枝一个较大的预训练模型来初始化子模型的权重。
蒸馏（Distill）：通过来自教师模型 logits 的蒸馏，对刚剪枝的模型进行升级训练（up-train）。
重复（Repeat）：重复应用此策略，将子模型进一步收缩为更小的模型。

每个阶段的模型剪枝遵循与 Minitron 和 Wanda 类似的方法，且所有变体的蒸馏教师模型均为 Mistral Small 3.1。剪枝和蒸馏的细节将在随后的段落中提供。

与从头开始训练每个小模型相比，级联蒸馏生成的模型在 FLOPs（浮点运算次数）效率上显著更高。值得注意的是，端到端的过程可以被视为父模型在权重剪枝下的一种持续预训练形式。如图 2 所示，由于级联蒸馏是在单次运行中通过数据混合并沿途进行剪枝，因此在整个过程中避免了数据重复。

剪枝（Pruning）。与 Minitron 类似，本工作的剪枝策略旨在保留原始模型中最关键的组件（基于验证数据集），同时减小其尺寸。本工作采用以下关键剪枝技术：

层剪枝（Layer Pruning）： 本工作并未采用 Sreenivas et al. [2024] 中基于移除单层后的反事实下游困惑度（counterfactual downstream perplexities）的方法，而是发现输入与输出激活范数（activation norms）的比率提供了一个更简单且强大的层重要性代理指标。
隐藏层维度剪枝（Hidden Dimension Pruning）： 对所有层中注意力归一化和前馈网络（FFN）归一化层的拼接激活值应用主成分分析（PCA）。这产生了一个在整个网络中一致的单一旋转矩阵，该矩阵将模型投影到低维空间，同时最大化解释方差。
前馈维度剪枝（Feedforward Dimension Pruning）： 对于使用门控线性激活函数（如 SwiGLU）的多层感知机（MLP），给定非常大的批次，其表达式为。本工作对矩阵的维度进行剪枝。为了确定保留的哪些列，本工作计算重要性分数，定义为上述表达式每个维度的平均绝对值。然后，本工作仅保留中与上述产生的索引相对应的行。

算法 2 提供了剪枝策略的更多细节。它接受一个预训练模型和目标尺寸配置作为输入进行剪枝。input_x 和 output_x 指代来自大型校准批次的激活值。

蒸馏（Distillation）。在权重初始化之后，每个子模型会在混合了纯文本和图文交错数据的数据集上进行训练，并利用来自教师模型的 logit 蒸馏。本工作发现，仅使用前向 KL 散度蒸馏目标进行训练，优于调整蒸馏目标与下一个 token 预测目标不同权重的系数。对于所有阶段和模型尺寸，均使用父模型作为教师模型。

预训练阶段包含两个步骤： (1) 短上下文阶段：上下文窗口长度为 16,384。该阶段的输出将作为下一个子模型剪枝阶段的输入。 (2) 长上下文阶段：利用 YaRN 和基于位置的温度缩放将上下文窗口从 16,384 扩展到 262,144。

后训练：Ministral Instruct

为了赋予模型指令遵循能力，预训练模型使用经过策划的数据集进行微调，该数据集包含高质量的多模态和纯文本指令遵循数据。微调阶段同样包含两个步骤：监督微调（SFT）和在线直接偏好优化（ODPO）。

监督微调

本工作使用 fp8 量化运行 SFT，并利用来自强力教师模型的 logit 蒸馏损失。与预训练不同，每个模型都是从 Mistral Medium 3 模型蒸馏而来的。与预训练阶段类似，视觉编码器保持冻结，而适配器（adapter）是可训练的。

在线直接偏好优化阶段

直接偏好优化 (DPO) 通过直接从离线成对偏好中学习，提供了一个轻量级的人类偏好优化框架。对于 Ministral 3 模型，本工作采用了其在线变体——在线直接偏好优化 (ODPO)。在这一方法中，对于每个示例，本工作使用温度从当前策略中采样两个候选回复，并使用基于文本的奖励模型对回复进行排序。

该方法依赖于成对奖励模型（Pairwise Reward Model, PWRM）来动态排列候选回复。PWRM 是通过在结构化的成对数据上进行监督微调（SFT）训练得到的：给定对话历史和两个候选回复，它预测哪个回复更受偏好。此外，本工作通过结合 PWRM 的二项概率输出改进了经典的 DPO 损失，用双边损失（two-sided loss）替代了硬性的赢家/输家标签，根据被偏好的概率对每个回复进行加权。本工作做了两个额外的更改以稳定学习过程：(1) 调整 PWRM 的温度以校准胜/负概率；(2) 采用 -重缩放（-rescaling）技术，允许对 DPO 损失进行更具有 beta 不变性的重缩放。

在实践中，在线变体对于减轻模型引发的伪影（artifacts，如无限生成）尤为重要。这也得益于一些启发式方法，例如自动将采样过程中表现出无限循环的任何回复视为"输家"，从而防止此类行为被强化。最后，本工作在生成过程中启用了工具执行，这提高了模型的工具使用性能。

总之，本工作发现，使用在线偏好优化相比 SFT 和离线变体，显著提高了与人类偏好的一致性。本工作发布了此阶段产生的模型，命名为 Ministral 3-14B/8B/3B Instruct。

后训练：Ministral Reasoning

推理模型的后训练始于预训练检查点，而不是 ODPO 变体。本工作使用由 SFT、GRPO 和 ODPO 组成的三阶段流水线训练模型的推理时扩展能力（inference-time scaling），并使用长上下文预训练检查点作为起点。在此面向推理的微调阶段后发布的模型被称为 Ministral 3 14B/8B/3B Reasoning。

推理监督微调

在此阶段，模型在短的和长思维链（CoT）样本的混合数据上进行微调。前者来自本工作的通用 SFT 数据混合，而后者包含前缀了推理特定系统提示词的推理轨迹（reasoning traces）。

推理轨迹来自不同的领域，包括数学、编码、一般对话、指令遵循、多语言任务、工具使用和视觉推理。本工作应用轻量级过滤来移除格式极差、包含过度重复或具有不良语言切换的示例，确保模型接触到干净且结构良好的思维链。

3B SFT： 对于 3B 模型，普通的 SFT 导致模型脆弱、过于冗长，且输出中存在大量重复和无限生成。为了缓解这一问题，本工作使用 Mistral Small 3.1 作为教师进行了 logit 蒸馏。这有助于减少冗长并稳定随后的强化学习（RL）训练。

强化学习

本工作在 SFT 检查点之上执行 GRPO，以细化模型的思维并进一步提高推理任务的性能。训练分两个阶段进行：

STEM RL： 在第一阶段，模型在数学、代码和视觉推理任务上进行训练。本工作从各种开放和专有来源收集问答对。样本使用严格的多步流水线进行过滤和清理，以移除无效、不完整以及非常简单/困难的问题。

通用 RL： 在第二阶段，本工作将范围扩大到 STEM 问题之外。本工作为包括一般聊天、指令遵循和开放式推理任务在内的各种提示词生成原子评分标准（atomic grading rubrics）。在 GRPO 期间，一个大语言模型（LLM）裁判根据这些评分标准（例如，对提示词的忠实度、回复质量）评估每个模型的生成结果，最终奖励设定为满足启发式规则的比例。这一阶段提高了模型的指令遵循和一般聊天能力，同时保持甚至有时提高了 STEM 基准测试的性能。

对于这两个阶段，本工作遵循 GRPO 训练配方。最大生成长度从 32K 增加到 80K，因为本工作观察到在 RL 期间有不可忽视比例的截断生成。允许更长的输出使模型能够完成最具挑战性问题的推理，从而获得额外的性能增益。

在线直接偏好优化

最后，本工作应用 ODPO 作为后 RL 对齐阶段，以更好地与用户偏好对齐并润色模型的对话和指令行为。整体过程遵循用于非推理 Instruct 模型的相同设置，但有一个修改——在将模型的生成内容发送给奖励模型进行评分之前，思维块（thinking chunks）会被剥离。

实验

预训练性能对比

在 14B、8B 和 3B 三个尺度上，Ministral 3 系列与 Gemma 3 和 Qwen 3 系列进行了对比：

14B 规模：Ministral 3 14B 在 TriviaQA 和 MATH 任务上优于 Qwen 3 14B，在其他基准上表现相当。同时，它在所有基准上都显著优于 Gemma 12B。
8B 规模：Ministral 3 8B 表现出极高的参数效率，在大多数评估中（除 TriviaQA 外）都优于参数量更大的 Gemma 12B。
3B 规模：保持了相同的性能趋势，但模型间的差距变得更加明显。

消融实验与核心发现

**能力差距 (Capacity Gap)**：在预训练阶段，从 Mistral Small 3.1（24B）蒸馏的效果优于从更强的 Mistral Medium 3 蒸馏。即便不考虑计算成本，更强的教师模型并不一定能产生更强的学生模型。

后训练收益：尽管预训练阶段存在"能力差距"，但在后训练（SFT）阶段，使用更强的教师模型（Mistral Medium 3）确实能进一步提升模型性能。

指令微调 vs 预训练教师：从后训练（Instruct）的教师模型进行蒸馏，产生的学生模型比从预训练（Base）教师模型蒸馏的效果更好，尤其是在数学和代码任务上。
人类偏好对齐：从经过人类偏好优化的教师模型（Preference tuned）蒸馏，总是比仅从 SFT 教师模型蒸馏效果更好。

推理行为分析

长思维链的影响：在 Instruct 模型的 SFT 数据中加入长思维链（CoT）数据，虽然能提升 STEM 性能，但会导致模型在普通对话中出现过度的"反思"和"回溯"，影响用户体验。因此，最终发布的 Instruct 模型未使用此策略。
ODPO 的作用：对推理模型应用 ODPO（在线直接偏好优化）能显著提升其在通用聊天基准上的表现（特别是 14B 和 8B 版本），使其既能解决复杂问题，又能进行自然对话。

结论

Ministral 3，一个专为资源受限环境设计的高效密集型语言模型系列。通过从更大的教师模型（Mistral Small 3.1 和 Medium 3）进行迭代蒸馏，创建了三种模型尺寸（14B, 8B, 3B），每种尺寸均提供基础版（base）、指令遵循版（instruction-following）和推理增强版（reasoning-enhanced）。所有模型均支持视觉能力，并能处理长达 256K token 的上下文。

参考文献

[1] Ministral 3

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及内容生成/理解（图像、视频、语音、文本、3D/4D等）、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累，方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者，解决从理论到实战中遇到的具体问题。倡导深度讨论，确保每个提问都能得到认真对待。

欢迎扫码加入

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

AI I024

2026年1月16日星期五

Mistral AI开源Ministral 3家族，通过级联蒸馏从大模型高效衍生出3B/8B/14B小模型，全系支持多模态与长上下文，在多项基准中超越同规模竞品，兼顾高性能与边缘部署效率