DeepSeek-R1:开源Top推理模型的实现细节、使用与复现

核心观点

● 直接用强化学习就可以让模型获得显著的推理能力,说明并不一定需要SFT才行。
● 强化学习并不一定需要复杂的奖励模型,使用简单的规则反而取得意想不到的效果。
● 通过知识蒸馏让小模型一定程度上也有推理能力,甚至在某些场景下的表现超过了Top模型,比直接在小模型上进行强化学习更好。

DeepSeek-R1-Zero:纯强化学习的推理能力

训练模版

DeepSeek团队设计了如下的训练模型,要求模型按照如下格式进行输出:首先进行推理过程,然后给出最终答案。通过限制输出的结构格式,避免内容偏见,并且可以观察模型在强化学习过程中的推理进展。

奖励模型

DeepSeek-R1-Zero的训练信号来源于奖励系统,主要包括两种奖励类型:
● 准确性奖励:评估模型回答的正确性,适用于数学问题和LeetCode问题,通过规则验证答案。
● 格式奖励:要求模型将思考过程放在特定标签之间(<think></think>)。
不使用神经奖励模型,这是因为可能导致奖励黑客问题,且重训练需要额外资源,复杂化训练流程。

顿悟时刻

论文中展示了一个 R1-Zero 在解决一道数学题时的中间版本输出,被称为模型的「顿悟时刻」。在这个例子中,模型在推理过程中突然意识到可以“重新评估”之前的步骤,并尝试用一种新的方法来解题,这种思维与人类似,说明模型初步掌握了人类思维的推理能力(红色字体部分)。

性能表现

DeepSeek-R1-Zero的自我进化过程显示出其在强化学习下的推理能力提升,能够处理复杂推理任务。此外,模型在训练过程中思考时间持续改善,能够生成数百到数千个推理标记,促进深度思考,从而实现更加强大和正确的推理能力。

DeepSeek-R1:多阶段训练推理能力

从Zero的训练过程中很容易得到启发:如果在训练初期先进行一部分高质量COT数据的微调,能否显著增强模型的推理能力,又或者加速收敛?

冷启动阶段

针对Zero模型不稳定的情况,尝试先通过收集数千条长CoT数据对模型进行微调。增加这一阶段有两个好处:

  1. 赠加模型的可读性,在SFT阶段可以设计易读的输出格式,包含推理过程和总结,从而过滤不友好的响应格式。
  2. 增加模型的推理能力,通过人类先验设计的模式,可以观察到DeepSeek-R1表现优于DeepSeek-R1-Zero,这是因为迭代训练更适合推理模型。

基于推理性能的强化学习优化

在对DeepSeek-V3-Base进行冷启动数据微调后,采用与DeepSeek-R1-Zero相同的大规模强化学习训练,重点提升模型在编码、数学、科学和逻辑推理等推理密集型任务中的能力。训练过程中发现CoT在多语言提示中常出现语言混合,为此还需要引入语言一致性奖励,需要计算CoT中目标语言单词的比例。尽管这个训练目标会在一定程度上降低模型的推理能力,但其实一致的语言表达会更加符合我们的使用需求。最终奖励通过将推理任务的准确性与语言一致性奖励直接相加形成,随后对微调后的模型进行训练,直至在推理任务上收敛。

第二次微调

在推理导向的强化学习收敛后,利用检查点收集监督微调(SFT)数据,增强模型在写作、角色扮演等任务的能力。使用以下方法收集到的约80万条样本对DeepSeek-V3-Base进行第两轮的微调。

  1. 推理数据:通过拒绝采样从强化学习训练的检查点生成推理轨迹,扩展数据集,包含使用生成奖励模型的数据,过滤混合语言、长段落和代码块,最终收集约60万条推理相关训练样本。
  2. 非推理数据:采用DeepSeek-V3的Pipeline,重用部分SFT数据,针对某些任务生成潜在的思维链,最终收集约20万条非推理训练样本。

第二次强化学习

这阶段论文中没有给出具体的实现步骤,仅提供了一段文字概述。在第二次微调后,同样需要再进行一轮强化学习,这一阶段主要是为了提升模型的有用性和无害性,同时改善推理能力。推理数据遵循DeepSeek-R1-Zero方法,利用基于规则的奖励指导数学、代码和逻辑推理,一般数据使用奖励模型捕捉复杂场景中的人类偏好。整合奖励信号和多样数据分布,训练出在推理上表现优异的模型,同时优先考虑有用性和无害性。有用性评估集中在最终摘要,强调响应的实用性和相关性。无害性评估涵盖整个响应,识别和减轻潜在风险、偏见或有害内容。

模型蒸馏:为小模型带来推理能力

为了证明蒸馏也能为小模型带来一定程度的推理能力,仅使用SFT,不包括强化学习阶段,通过使用800k样本对开源模型Qwen和Llama进行直接微调,提升了小型模型的推理能力。

DeepSeek团队还对比了经过大规模强化学习的模型和经过R1蒸馏后的模型的推理能力,如下表展示:

从这个结果可以得出两个结论:1)将更强大的模型蒸馏成更小的模型会产生优异的结果,而本文提到的依赖于大规模强化学习的较小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。2)虽然蒸馏看起来既经济又有效,但想要实现智能推理可能仍然需要更强大的基础模型和更大规模的强化学习。

本地使用

Ollama已经提供了6个蒸馏模型的使用,最低只需要4GB显存即可调用。

ollama run deepseek-r1:1.5b

复现

针对DeepSeek团队没有开放的一些具体细节,HF团队创建了一个项目,旨在完全复现出R1的训练、评估、数据、以及权重等,足以看出开源界对R1系列模型的期待。
项目地址:open-r1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/876406.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高通平台Android源码bootloader分析之sbl1(一)

高通8k平台的boot过程搞得比较复杂, 我也是前段时间遇到一些问题深入研究了一下才搞明白。不过虽然弄得很复杂,我们需要动的东西其实很少,modem侧基本就sbl1(全称:Secondary boot loader)的代码需要动一下,ap侧就APPSBL代码需要动(对此部分不了解,可参照:bootable 源…

读量子霸权17模拟宇宙(下)

黑洞、暗物质、粒子标准模型及超越理论被探讨,弦理论为领先候选,量子计算机模拟宇宙成为可能,平行宇宙理论也被提出,物理学界寻求宇宙终极理论。1. 黑洞 1.1. 模拟黑洞可以很快耗尽普通数字超级计算机的计算能力 1.2. 并没有人真正知道当一颗大质量恒星在引力作用下坍缩时会…

VSCode 接入DeepSeek V3大模型

转载自: VSCode 接入DeepSeek V3大模型,附使用说明 - 唯知笔记 DeepSeek V3 是一个拥有 6710 亿参数的专家混合(MoE)语言模型。最新评估表明,DeepSeek V3 已经超越了其他开源模型。重点是:国内(不需要工具),便宜(10块钱大约500万tokens)。 作为日常开发使用的编辑器 VSC…

06_LaTeX之特色工具和功能

本文介绍一些特色的 $\LaTeX{}$ 辅助功能。前两个功能 $\texttt{BibTeX}$ 和 $\texttt{makeindex}$ 依靠一些辅助程序自动生成参考文献、索引等;之后的使用颜色、超链接等则令我们生成美观易用的电子文档。06_\(\LaTeX{}\) 之特色工具和功能 目录06_\(\LaTeX{}\) 之特色工具和…

程序员常用高效实用工具推荐,办公效率提升利器!

前言 在当今这个技术日新月异的时代,开发者只有持续学习,才能紧跟时代的浪潮。为了助力开发者在高效学习与工作中实现平衡(告别996的束缚),众多卓越且实用的开发工具应运而生,它们如同强大的助力器,极大地提升了我们的工作效率与创造力。🚀Gitee加速访问: https://gi…

Cisco NX-OS System Software - ACI 16.0(8f)M - 适用于 ACI 模式下的 Nexus 9000 系列交换机系统软件

Cisco NX-OS System Software - ACI 16.0(8f)M - 适用于 ACI 模式下的 Nexus 9000 系列交换机系统软件Cisco NX-OS System Software - ACI 16.0(8f)M 适用于 ACI 模式下的 Cisco Nexus 9000 系列交换机系统软件 请访问原文链接:https://sysin.org/blog/cisco-aci-16/ 查看最新…

[译] WinForms:分析一下(我用 Visual Basic 写的)

原文 | Klaus Loeffelmann 翻译 | 郑子铭 如果您从未看过电影《分析这一点》,下面是简短的介绍:假设一个纽约家族的成员有可疑的习惯,他决定认真考虑接受治疗以改善他的精神状态。在比利克里斯托和罗伯特德尼罗的推动下,剧情一定会很有趣。虽然《分析这一点!》讽刺性地处理…

Cisco APIC 6.0(8f)M - 应用策略基础设施控制器

Cisco APIC 6.0(8f)M - 应用策略基础设施控制器Cisco APIC 6.0(8f)M - 应用策略基础设施控制器 Application Policy Infrastructure Controller (APIC) 请访问原文链接:https://sysin.org/blog/cisco-apic-6/ 查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org思科…

python--成功案例

https://www.python.org/about/success/

特斯拉 Model Y 焕新版 vs Model 3 焕新版 All In One

特斯拉 Model Y 焕新版 vs Model 3 焕新版 All In One 减配 LED 氛围灯 Model Y 焕新版, 车门上的 LED 灯带变短了 💩特斯拉 Model Y 焕新版 vs Model 3 焕新版 All In One 减配 LED 氛围灯 Model Y 焕新版, 车门上的 LED 灯带变短了 💩https://www.tesla.cn/modely/design…

FunPapers[1]: GBDT和DNN强强联手,表格预测新突破!

论文提出了Tree-hybrid MLP(T-MLP)方法,其核心思想是结合GBDT的特征选择和模型集成优势与DNN的高维特征空间和光滑优化特性,通过张量化GBDT特征门、DNN架构剪枝和反向传播协同训练MLP模型,以实现高效、有效的表数据预测。Team up GBDTs and DNNs: Advancing Efficient and…

如何迁移wsl发行版

转载:轻松搬迁!教你如何将WSL从C盘迁移到其他盘区,释放存储空间! - 知乎 1.准备工作 打开CMD,输入wsl -l -v查看wsl虚拟机的名称与状态。wsl虚拟机的名称与状态 了解到本机的WSL全称为Ubuntu-22.04,以下的操作都将围绕这个来进行。 输入 wsl --shutdown 使其停止运行,再…