在这个科技日新月异的时代,每一次技术的突破都可能引领行业的变革。近日,360智脑团队宣布成功复现了Deepseek的强化学习效果,并发布了业界首个14B级别的推理模型:Light-R1-14B-DS。这一成果不仅展示了360智脑团队在人工智能领域的深厚实力,更标志着数学推理能力在模型上的又一次飞跃。该模型性能卓越,甚至超越了众多32B级别的模型,包括DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B。此外,360智脑团队还开源了模型的SFT数据、代码及技术报告。
这是业界首次在 14B 模型上复现强化学习效果,提高了其数学推理能力。成绩超越绝大多数 32B 级模型。
相比 DeepSeek-R1-14B,Light-R1-14B-DS 在 AIME24 提高了 4.3 分,在 AIME25 提高了 10 分!在数学推理任务 GPQA 上也表现优异,达到 61.7 分!
相关链接
论文:https://github.com/Qihoo360/Light-R1/blob/main/Light-R1.pdf 代码: 模型:https://huggingface.co/qihoo360/Light-R1-32B 数据:https://huggingface.co/datasets/qihoo360/Light-R1-DPOData 课程:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
介绍
尽管已经有许多开源工作尝试在 72B 或更低的模型上重现 DeepSeek-R1,但在艰难的数学竞赛 AIME24 上没有一个能取得与 DeepSeek-R1-Distill-Qwen-32B 的得分 72.6 类似的表现。
Light-R1-32B 在 AIME24 训练中从 Qwen2.5-32B-Instruct 取得了 76.6 的成绩。从没有长 COT 的模型(就 R1 而言从头开始)开始,并在净化的数学数据上进行训练,使用课程 SFT 和 DPO 提炼了 DeepSeek-R1,使其在 AIME24 和 25 上超越了 DeepSeek-R1-Distill-Qwen-32B,并通过模型合并进一步改进。
更重要的是,除了最先进的从头开始的模型 Light-R1-32B,还发布了课程 SFT 和 DPO 的所有训练数据集以及基于360-LLaMA-Factory 的训练代码。在 12 台 H800 机器上进行的训练时间估计不超过 6 小时 --- 大约 1000 美元。
方法
数据准备
整个数据准备过程涵盖数据收集、数据净化和数据生成,具体如下。
数据收集
首先收集各种数学问题来源和真实答案。通过迭代所有可能的来源,我们收集了大约 1000k 个数学问题作为种子集。主要数据来源包括:
https://huggingface.co/datasets/GAIR/LIMO https://huggingface.co/datasets/nvidia/OpenMathInstruct-2 https://huggingface.co/datasets/open-r1/OpenR1-Math-220k https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k • https://huggingface.co/datasets/simplescaling/s1K-1.1 https://huggingface.co/datasets/KbsdJames/Omni-MATH https://hf-mirror.com/datasets/baber/hendrycks_math
所有数据都汇总在一起,形成约 1000k 个数学问题作为种子集。在这 1000k 个数据中,我们只保留了有真实答案的数学问题。没有真实答案的问题可以通过让多个强大的 LLM 投票选出真实答案来用作合成数据,但我们将其留待将来的工作。 然后对数据进行多样性过滤,我们使用内部标记系统标记每个问题,并对数据过多的类别进行下采样。
课程后训练
方法包括三个阶段:
SFT 第 1 阶段:对 76k 个筛选数学问题进行训练 SFT 第 2 阶段:对 3k 个高难度问题进行微调 DPO 优化:使用经过验证的响应对进行基于偏好的优化
数据净化
我们仔细评估了几个开源数据集的数据污染。虽然在预训练期间某些污染可能是不可避免的,但训练后与基准进行比较是不可接受的。如表 3 所示,我们发现 MATH-500 在一定程度上受到了损害,有数十个问题相同或仅数字发生变化。AIME 24 和 25 保持不变,但在整合 2023 年之前的 AIME 数据时,我们必须特别注意。 Light-R1 通过精确匹配(不包括数字,以过滤掉仅数字发生变化的问题)和 N-gram(N=32)匹配对 AIME24、AIME25、MATH-500 和 GPQA 进行了彻底的净化。
数据生成
借助多样化且干净的数据集,我们生成长 COT 响应以供 SFT 训练。但是,并非所有数据都适合且有必要进行训练,而且无论是查询 API 还是本地部署,提取 DeepSeek-R1 的成本都很高。因此,我们首先对数据集进行了难度测试,只保留那些不太简单的问题。
我们使用 Luo 等人 [2025] 的 DeepScaleR-1.5B-Preview 模型对每个问题的响应进行抽样,因为该模型虽然小但足够强大。只有通过率 < α 的问题才会被保留以查询 DeepSeek-R1。这会产生大约 70k(准确地说是 76k)个数据。查询 DeepSeek-R1 后,只保留具有正确长 COT 答案的问题。如果两个或更多采样答案是正确的,我们会随机选择其中一个长 COT 答案用于 SFT。
通过这种方式,我们构建了一个超过 70k 的 SFT 数据集,其提示经过多样性和难度过滤,并由 DeepSeek-R1 生成长 COT 响应并与事实进行验证。
结果
如表 4 所示,我们的课程 SFT 和 DPO 后训练的每个阶段都取得了稳步的进步。在 DPO 阶段之后,我们合并了 SFT-stage2、DPO 和另一个 AIME24 得分为 74.7 的 DPO 版本的模型。两个 DPO 版本的不同之处在于,其中一个数据在被拒绝的响应中跳过了特殊标记。有趣的是,最终版本也表现出了改进。在我们根本没有训练过的科学问题的 GPQA 评估中,数学专业训练导致了一定程度的遗忘。然而,Light-R1-32B 仍然表现出很强的泛化能力。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
没有评论:
发表评论