DeepSeek-R1真算得上开源吗?

news/2025/2/6 10:05:42/文章来源:https://www.cnblogs.com/JavaEdge/p/18700609

1 啥是 DeepSeek-R1?

如你曾为一道棘手数学题绞尽脑汁,就明白多花时间仔细思考多重要。OpenAI o1 模型证明,当 LLM 在推理时,通过增加计算量进行类似训练后,它们在数学、编程和逻辑等推理任务上的表现显著提升。

然而,OpenAI 推理模型的训练方法一直是秘密。直到DeepSeek发布DeepSeek-R1模型,瞬间引爆互联网(甚至影响股市!)。

除了性能达到或超越 o1,DeepSeek-R1发布还附带详细技术报告,揭示其训练方法的关键步骤。该方法包含多项创新,最引人注目的是使用纯强化学习让基础语言模型学会推理而无需任何人工监督。如下图所示,只要拥有强大的基础模型和高质量的数据混合,构建强大的推理模型就变得非常简单:

不过,DeepSeek-R1 发布仍留下几个

1.1 未解之谜

  • 数据收集:推理专用数据集咋构建的?
  • 模型训练:DeepSeek 未公开训练代码,因此最佳超参数设置及其在不同模型系列和规模间的差异尚不明确
  • 扩展规律:训练推理模型时计算资源和数据量之间咋权衡?

这些问题促使业界启动Open-R1 项目,旨在系统复现 DeepSeek-R1 的数据和训练流程,验证其声明,并推动开源推理模型的边界。通过构建 Open-R1

1.2 愿景

  • 揭示强化学习如何增强推理能力
  • 与开源社区分享可复现经验
  • 并为未来模型应用这些技术奠定基础

本文深入探讨 DeepSeek-R1 的核心要素、计划复现的部分。

2 他们咋做到的?

DeepSeek-R1 是基于 [DeepSeek-V3] 打造的推理模型。与所有优秀推理模型一样,它始于一个强大的基础模型——DeepSeek-V3 正是如此。这个 671B 的混合专家模型(MoE)性能媲美 Sonnet 3.5 和 GPT-4o 等重量级选手。其训练成本仅 550 万美元,这得益于多令牌预测(MTP)、多头潜在注意力(MLA)等架构改进和大量的硬件优化。

DeepSeek 推出两个模型,分别采用不同的训练方法

2.1 DeepSeek-R1-Zero

完全跳过监督微调,仅通过强化学习(RL)和组相对策略优化(GRPO)实现高效训练。简单的奖励机制根据答案的准确性和结构提供反馈,帮助模型发展出分步推理和自我验证等能力,但其回答常缺乏清晰度。

2.2 DeepSeek-R1

DeepSeek-R1 的改进之处。它通过"冷启动"阶段在小规模精编数据上进行微调,提升回答的清晰度和可读性。随后通过更多 RL 和精炼步骤(包括基于人类偏好和可验证奖励的低质量输出过滤),最终形成既擅长推理又能生成优雅答案的模型。

这一切听起来很完美,但还缺少啥?来看看拼图的缺失部分。

3 Open-R1:填补空白

DeepSeek-R1 的发布对社区是重大利好,但并非完整开源——虽然模型权重开放,但训练数据集和代码仍未公开😢!

Open-R1 的目标就是填补这些空白,让整个研究和产业界都能使用相同配方和数据集构建类似或更优的模型。通过开源协作,每个人都可参与贡献!

3.1 攻关计划

如下图分三步:

  • 第一步:通过从 DeepSeek-R1 蒸馏高质量推理数据集,复现 R1-Distill 模型
  • 第二步:复现 DeepSeek 创建 R1-Zero 的纯 RL 流程,需要构建数学、推理和代码的大规模新数据集
  • 第三步:展示从基础模型→监督微调→多阶段 RL 训练的全流程

合成数据集将允许任何人通过简单微调,将现有或新 LLM 转化为推理模型。包含 RL 的训练方法将成为从零构建类似模型的起点,研究人员可在此基础上开发更先进的方法。

社区不会止步于数学数据集。代码等传统领域及医学等科学领域都有巨大潜力,推理模型可能产生重大影响。

该倡议不只复现结果,更是与社区共享洞见。通过记录有效/无效的方法及其原因,社区希望帮助他人避免在无效路径上浪费时间和算力。

本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!

  • 🚀 魔都架构师 | 全网30W+技术追随者
  • 🔧 大厂分布式系统/数据中台实战专家
  • 🏆 主导交易系统亿级流量调优 & 车联网平台架构
  • 🧠 AIGC应用开发先行者 | 区块链落地实践者
  • 🌍 以技术驱动创新,我们的征途是改变世界!
  • 👉 实战干货:编程严选网

本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/879550.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WPS:如何创建序号列表:一、1.1、1.1.1

目标:生成如下图所示的多级标题序号 步骤: 1)修改样式标题1 2)格式→编号在多级编号中选择如下编号序列点击右下角的自定义,修改编号样式为一,二,三……(如果该项为灰色,无法修改,请取消勾选右下角的正规形式编号) 此时在右边的预览中可以看到一级序号已经变为汉字…

DataFrame 的rolling()函数

rolling参数 DataFrame.rolling(window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)window:表示时间窗口的大小;可省略不写。两种形式:int和offset。如果使用int,数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型,…

简易美观!一个浏览器首页导航面板!

sun-panel —— 个 NAS、服务器导航面板、简易 Docker 管理器、Homepage、浏览器首页。大家好,我是 Java陈序员。 之前给大家介绍一款基于 GitHub Pages 配置实现的导航页面。 贼好用!五分钟搭建一个美观且易用的导航页面! 今天,再给大家介绍一个简易美观的浏览器首页导航面…

电脑屏幕出现一条灰色横线的解决办法

在桌面空白处右击,选择显示设置,调整更改文本、应用等项目的大小,修改为125%,再修改为100%即可

[CSharpTips]C# 获取当前方法名

获取当前方法名 添加System.Runtime.CompilerServices 命名空间 添加 "GetCallerName"方法如下,在方法中调用此方法便可获取当前方法名1 using System;2 using System.Runtime.CompilerServices;3 4 namespace GetCallerNameTest5 {6 internal class Program7 …

大模型实战:基于腾讯云HAI服务轻松部署 DeepSeek-R1图文教程

近期在AI领域最火的莫过于DeepSeek模型,DeepSeek-R1 已发布并开源,性能直接对标 OpenAl o1 正式版。作为一名AI爱好者来说还是希望能够亲自体验一下DeepSeek-R1的真实效果。正好腾讯云HAI服务提供了非常友好的方式,仅仅需要三分钟就可以轻松部署DeepSeek-R1,今天就来给大家…

DeepSeek-R1在个人电脑本地部署

最近DeepSeek大火,人工智能未来将对工作生活带来很大的改变。 除了在服务器上部署外,我想在本地笔记本上部署一个,当遇到离线环境的时候,依然可以使用人工智能辅助。 本地部署很简答, 一条命令就可以了,下面是部署和测试验证的一些要点记录。 1.安装准备 Ollama下载和安装…

康熙字典存世的几种版本分析-附《康熙字典》电子版全文在线查询

《康熙字典》作为中国历史上重要的字书之一,自清康熙五十五年(1716年)成书以来,历经多次刊刻、修订和重印,形成了多种存世版本。这些版本在内容、版式、校勘和印刷技术上存在差异,具有不同的文献价值和收藏价值。《康熙字典》作为中国历史上重要的字书之一,自清康熙五十…

美国支付清算体系介绍

美国的支付清算体系是全球最复杂、最多样化的金融基础设施之一,支撑着庞大的国内经济和全球金融活动。本文将详细介绍美国支付清算体系的主要组成部分,包括银行间支付系统(如Fedwire和CHIPS)和零售支付系统(如ACH、Zelle、RTP),并探讨它们的特点和应用场景。通过对比中国…

学习 -人工智能 - AI Agent的理解

浅谈AI Agent的理解 Agents是什么? 大语言模型可以接收输入、可以分析&推理、可以输出文字、代码、媒体。然而其无法像人类一样,拥有规划思考能力、运用各种工具与物理世界互动,以及拥有人类的记忆能力。 AI Agents是基于LLM能够自助理解、自主规划决策、执行复杂任务的…