AI I024: 142页深度解析：DeepSeek-R1的推理技术综述，AI的“思考”秘密大公开

DeepSeek-R1 就像是AI界的"思考者"，能够像人类一样进行复杂的推理和思考。在数学、编程、科学推理

DeepSeek-R1 就像是AI界的"思考者"，能够像人类一样进行复杂的推理和思考。在数学、编程、科学推理这些超难的任务上，它的表现简直逆天，直接对标OpenAI的o1正式版，妥妥的推理界"学霸"！

本文从DeepSeek-R1基本推理构建块的分类入手，对其进行深入研究，分析其推理过程中的多步思考链条、推理长度对性能的影响、处理长文本的能力、安全性问题以及与人类认知现象的关联。

研究发现 DeepSeek-R1 的推理具有一定的结构化特征，但存在推理长度过长、对长文本处理不稳定、安全漏洞较多等问题，同时也展示了其在特定任务上的优势和改进空间。

值得关注的是，研究发现DeepSeek-R1有一个推理的"最佳点"，在这个点上额外的推理时间可能会损害模型的表现。此外，发现DeepSeek-R1倾向于持续地反复思考之前探索过的问题表述，阻碍了进一步的探索。

一、背景与动机

大语言模型（LLMs）的转变：近期的研究重点已从简单的语言生成转向开发能够进行复杂多步推理的模型。这些模型被称为大型推理模型（LRMs），它们在得出答案之前会进行推理，生成详细的推理链，即被称为思维。

LRMs逐步生成思维，这些思维可以逐步积累解决问题的进展、自我验证或探索替代方案，直到模型对最终答案充满信心。

DeepSeek-R1的出现：DeepSeek-R1是一个高度能力的LRM，它不仅与OpenAI的o1模型性能相当，而且计算效率更高。更重要的是，DeepSeek-R1是首个公开其推理链的模型，这为研究模型的推理行为提供了前所未有的机会。

如图1.1展示了LLM与LRM输出之间的比较。

图1.1：比较GPT-4o等大语言模型（LLM）和DeepSeek-R1等大型推理模型（LRM）对简单数学推理问题的响应。LLM产生了一系列思想，追求一种单一的方法来解决问题，而无需对答案进行任何验证。相比之下，LRM在不断验证其方法的同时，从不同的角度仔细思考问题。

DeepSeek-R1的出现为什么如此令人兴奋？

1）首个为给定输入提供其思维访问权限的高度能力大语言模型；

2）训练程序以及训练好的模型的代码和权重都是公开可用的（尽管训练数据除外）；

3）DeepSeek-R1的初步变体R1-Zero表明，强大的推理能力，包括复杂的多步骤推理、自我验证以及看似自发的洞察力（也称为"顿悟"），可以仅通过强化学习发现，无需通过监督学习。

在大语言模型中引导推理

大语言模型（LLMs）通常被描述为"系统1思考者"，容易做出快速判断并产生偏见。因此，将深思熟虑的"系统2"推理能力引入LLMs一直是研究的活跃领域。早期方法尝试通过训练数据中的解释来明确地向语言模型灌输推理行为，但这种方法需要大量人工注释的数据，成本较高。

早期方法：

1）思维链（CoT）提示：无训练方法通过提示模型逐步思考解决方案，取得了巨大成功。这种方法被称为思维链（CoT）提示，能够激发模型的推理能力。

2）自我验证与反向链接：为了减少错误累积的风险，一些工作尝试将自我验证步骤注入推理过程中，或者通过并行采样多种推理路径来找到一致的答案。此外，还有研究探索了从结论开始的反向链接方法。

3）问题解决范式：另一条研究线索是指导LLMs遵循某些问题解决范式，例如通过算法示例提示或特定方法促进问题分解。

基于训练的方法

1）自我生成的CoT理由：通过使用自我生成的CoT理由作为训练信号，LLMs能够迭代发展自身的推理能力。这种方法依赖于强化学习或基于自训练的程序，这些程序通过奖励信号来训练模型发展推理过程。

2）奖励模型与训练策略：奖励可以是针对最终模型结果，也可以是模型推理中的特定步骤。关键在于开发合适的奖励模型、高效实现以及强大的基础模型。

3）现代模型的推理能力：通过这些方法，现代LLMs如DeepSeek-R1、o1、Claude 3.7和Gemini 2.5表现出更强的推理能力。然而，除DeepSeek-R1外，这些模型的实现细节尚不清楚。

DeepSeek-R1的独特性：DeepSeek-R1通过公开其推理链，为研究LLMs的推理机制提供了独特的机会，同时也展示了推理能力可以通过强化学习而非监督学习获得。

二、DeepSeek-R1的多阶段训练过程

DeepSeek-R1的训练过程是一个复杂的多阶段流程，旨在逐步提升模型的推理能力和整体性能。如图2.1所示：

图2.1:DeepSeek-R1的多阶段训练过程。从左到右：1）通过GRPO训练DeepSeek-R1-Zero模型。2）对DeepSeekR1 Zero和其他来源生成的CoT数据进行SFT（冷启动）。3）基于推理密集型数据的GRPO。4）SFT大约有60万个推理和20万个非推理实例。请注意，此阶段从DeepSeek-V3-base模型重新开始。5）使用GRPO对包括安全培训在内的各种提示分布进行RL微调。

以下是其训练过程的详细分解：

基础模型：DeepSeek-V3

DeepSeek-R1的训练始于DeepSeek-V3，DeepSeek-V3 是一个专家混合模型，参数量为671亿，活跃参数为37亿。它在14.8万亿个标记上进行训练，是DeepSeek-R1训练的起点。

第一阶段：冷启动监督微调（Cold Start SFT）

目标：让模型具备基本的推理能力，规范输出格式，解决直接从基础模型进行强化学习时可能出现的语言混杂、格式混乱等问题。
方法：使用少量高质量的思维链（CoT）数据对DeepSeek-V3进行监督微调。这些数据包括问题、思考过程和答案，帮助模型学会按照既定格式输出内容。

第二阶段：推理导向的强化学习（Reasoning-Oriented RL）

目标：显著提升模型在数学、编程、科学问答等复杂推理任务上的能力。
方法：使用GRPO（Group Relative Policy Optimization）算法进行强化学习。模型对每个问题生成多个回答，并根据奖励信号优化参数。奖励信号包括准确性奖励、格式奖励和语言一致性奖励。
成果：模型的推理能力显著提升，例如在AIME 2024竞赛中，pass@1分数提升至71.0%。

第三阶段：拒绝采样与多领域监督微调（Rejection Sampling + Multi-Domain SFT）

目标：平衡模型在推理和非推理任务上的表现，使其不仅擅长推理题，也能应对日常问答、写作等任务。
方法：利用第二阶段生成的强推理模型，生成大规模的推理数据（60万条）和非推理数据（20万条），然后对模型进行监督微调。
成果：模型在更广泛任务上的通用性和连贯性增强。

第四阶段：全场景强化学习（All-Scenario RL）

目标：进一步优化模型的"有帮助性"和"无害性"，确保模型输出安全且有用。
方法：使用GRPO算法进行最后一轮强化学习，奖励模型在多种场景下的表现，包括推理任务和非推理任务。

三、DeepSeek-R1推理构建块分类

理解推理链的结构和内容对于分析DeepSeek-R1的推理能力至关重要。

首先概述下人类的推理过程，通常包含以下共通的术语和阶段：

1）问题定义：简化任务中的相关信息，识别给定条件、已知信息以及需要推断的未知信息。

2）初步反应：根据问题复杂程度，可能借鉴类似问题的解决方法或运用启发式策略给出即时答案。

3）规划：面对难题时，采取更具策略性和分析性的思考方法，规划的复杂程度取决于任务的复杂性。

4）执行与监控：在执行过程中，不断监控自己的进展和信心水平，以决定是否需要调整原计划。监控能力越强，任务完成质量越高。

5）重构：在解题过程中，可能需要调整原有思路或对世界的假设，以克服由于问题理解错误造成的卡顿。

6）解答验证：无论是使用启发式还是策略性方法，得出答案后通常会反思自己的思路和结果，确认其是否符合题目要求。

然后，再了解下DeepSeek-R1推理链的核心构建模块。如下图所示：

图3.1：DeepSeek-R1推理过程示意图。DeepSeek-R1首先在问题定义阶段定义任务目标。推理始于开花周期，它将问题分解为答案。随后可能会有一些重建周期，在这些周期中，模型会重新考虑所做的假设。在这段时间里，该模型对其推理给予了一些信心。最后，模型在关闭推理链之前确定最终答案。

DeepSeek-R1的推理链条被分解为以下几个基本单元：

1）问题定义（Problem Definition）：模型重新表述问题，通常以"我需要找到……"（I need to find…）结尾，明确问题目标。

2）分解周期（Bloom Cycle）：模型首次分解问题，生成中间答案，并可能验证其信心。这一阶段通常是最长的，因为需要对问题进行结构性分解。

3）重构周期（Reconstruction Cycle）：模型重新考虑初始假设，可能引入新的答案或验证现有答案。这一阶段会多次重复，模型会重新考虑之前的问题分解。

4）最终决策（Final Decision）：模型得出最终答案，并表达对答案的信心，通常以"我现在比较有把握了……"（I am now confident that…）开头。

尽管DeepSeek-R1的推理过程在某些方面与人类推理相似，但其缺乏有效的监控机制，导致在重构阶段可能出现过度思考或重复验证的行为。此外，推理链条的长度和多样性在不同任务中表现出显著差异，这为后续研究提供了重要的方向，例如如何优化推理长度和提高推理效率。

通过对DeepSeek-R1推理链条的分析，我们总结以下关键发现：

1）推理链条的结构一致性：DeepSeek-R1的推理链条在不同任务中表现出一致的结构，通常包括问题定义、分解、多次重构和最终决策。

2）反刍行为（Rumination）：模型在重构阶段会多次重新考虑问题的初始分解，这种行为类似于人类的"反刍"，但缺乏有效的监控机制。

3）推理链条的长度：推理链条的长度在不同任务中有所不同，但通常在分解周期最长，随后的重构周期逐渐变短，偶尔会出现较长的重构周期。

4）推理链条的多样性：在复杂的任务中，模型可能会尝试多种不同的问题分解方式，并在后续的重构周期中验证这些分解。

四、分析DeepSeek-R1思考长度的影响

4.1 思考长度对性能的影响

推理链长度与性能的关系：推理链长度对DeepSeek-R1的性能有显著影响。对于某些问题，随着推理链长度的增加，模型的准确率会先上升，达到一个峰值后开始下降。这表明存在一个"推理甜点区"，即一个最优的推理长度范围，在这个范围内，模型的性能最佳。

图4.1：AIME-24中3个不同问题的每个箱子中存在的想法的平均准确性。代表较长想法的箱子所覆盖的区域被越来越深的颜色所覆盖。

图4.2：乘法任务中每个容器中存在的思想的平均准确度。根据所乘数字的数量，将结果分为三类问题：小数字（最多6×6）、中等数字（7×7到11×11）和大数字（大于12×12）。

图4.3:DeepSeek-R1为三个数学推理基准（AIME-24、MATH500和GSM8k）生成的正确和不正确想法的平均长度。Dimakis（2025）首次在AIME-24上观察到这一趋势。

实验结果分析总结：

1）在AIME-24任务中，推理长度在6k到10k tokens之间时，准确率最高，超过这个范围后，准确率显著下降。
2）对于小数字乘法问题，模型几乎总是能够正确回答，推理长度对准确率影响不大。
3）对于中等数字乘法问题，推理长度与准确率的关系与AIME-24类似，存在一个最优的推理长度范围。
4）对于大数字乘法问题，模型几乎总是失败，这表明推理长度的增加并不能解决所有问题，某些问题可能需要其他策略。

4.2 思考长度的成本效益权衡

推理链长度与成本的关系：DeepSeek-R1在推理过程中生成的推理链往往过长，即使在看似简单的任务中也是如此。这种"思考过度"使得模型在部署时计算成本高昂，而且可能影响性能。

图4.4：当思想长度在0-1范围内归一化时，每个区间的问题平均精度的总和。图4.5：DeepSeek-R1在GSM8k任务中受到不同代币预算限制时的性能。

实验结果分析总结：

1）实验对象为GSM8k任务，这是一个小学水平的数学推理任务。实验设置不同的token预算（64、256、512、768、1024），并评估模型在这些预算下的表现。
2）结果显示，在无约束的情况下，DeepSeek-R1的推理链平均长度高达1388个token，显得非常冗长。即便将输出token数量减少近一半，模型性能也几乎没有下降。
3）因此，限制推理链长度是一种兼顾高性能和高效率的有效方式。对于推理模型，设置合理的token限额可以显著降低推理成本，而性能几乎不受影响。

五、长上下文评估

近年来，人们强烈强调增加大语言模型的上下文窗口。更大的上下文窗口自然使模型能够在推理过程中整合更多特定于任务、先前未见过的信息，从而在一系列自然语言和多模态任务中提升性能。

这一能力对大语言模型尤其关键——不仅因为这些模型通常会被部署在需要处理广泛上下文的场景中，而且推理链本身往往长达数千个标记，进一步增加了上下文长度。

因此，在本部分旨在更好地理解DeepSeek-R1的长上下文能力。

5.1 从长上下文输入中检索事实

DeepSeek-R1 在NIH任务上达到了95%的准确率，表现出色。然而，当面对如此大规模的上下文时，DeepSeek-R1有时会"被淹没"，生成不连贯的文本，甚至出现语境不符的内容。

5.2 对长上下文输入进行推理

图5.2：DeepSeek-R1被一针见血的堆栈问题淹没的一个例子。DeepSeek-R1开始生成考虑到输入的无意义的中文字符，并在完成推理链之前停止输出（即，它不输出任何标记）

尽管推理训练显著提升了DeepSeek-R1的表现，但其在长上下文任务中的表现仍低于专门优化长上下文处理的模型（如Gemini-1.5-Pro）。这表明推理能力的提升并不一定带来长上下文处理能力的显著提升。

5.3 对自己长推理链的回忆

DeepSeek-R1在回忆长推理链中的信息时表现出一定的能力，但在处理非常长的推理链时，其表现仍不稳定，有时会"不知所措"。

六、忠实性和对上下文的依赖分析

6.1 对错误或无关知识的忠实性

图6.1：给定不正确的知识，DeepSeek-R1的接地问题回答示例。强调了模型对提供的错误信息进行反思的情况。

总结分析：

1）DeepSeek-R1在推理链中明确承认了知识冲突，并依赖用户提供的信息，即使这些信息是错误的。
2）当面对无关信息时，模型能够识别出这些信息的不相关性，但推理链会显著变长，因为它需要花费更多时间来处理这些信息。

6.2 对错误标记的上下文例子的忠实性

总结分析：

1）DeepSeek-R1在面对错误标记的上下文时，表现出高度的忠实性，优先考虑用户提供的信息，即使这些信息是错误的。
2）当错误标记的比例较高时，模型的推理链显著变长，因为它需要花费更多时间来处理这些矛盾的信息。
3）在某些推理链中，模型会过度思考，试图为错误标记的示例形成复杂的假设。

论文地址：https://arxiv.org/pdf/2504.07128
《DeepSeek-R1 Thoughtology: Let's about LLM reasoning》

DeepSeek-R1在推理过程中存在"反刍"行为，推理长度存在最佳点，长上下文处理能力有限，安全性存在漏洞，并在不同语言环境下表现出不同的文化价值观。未来的研究应关注推理长度的控制、推理策略的一致性和安全性改进。

这篇论文为理解LRMs的推理能力和局限性提供了重要的见解，并为进一步改进这些模型提供了方向。

从零走向AGI

https://github.com/AI-mzq/From-Zero-to-AGI.git

AIGCmagic社区飞书知识库：

https://aigcmagic.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd

面试面经

https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer.git

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

AI I024

2025年5月8日星期四

142页深度解析：DeepSeek-R1的推理技术综述，AI的“思考”秘密大公开