DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了

news/2025/2/6 14:36:55/文章来源:https://www.cnblogs.com/bonelee/p/18701022
DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了 
AI生成摘要
摘要
中国版o1刷屏全网。DeepSeek R1成为世界首个能与o1比肩的开源模型,成功秘诀竟是强化学习,不用监督微调。AI大佬们一致认为,这就是AlphaGo时刻。
自由讨论详情

一觉醒来,AGI就实现了?!中国开源版o1,直接冲爆了整个AI圈。

继DeepSeek V3之后,DeepSeek再次官宣了全新推理模型——DeepSeek-R1。

让所有人为之震惊的是,新模型直接与o1打平手,关键还是开源版的o1。

当人们扒开其22页技术报告后发现,DeepSeek-R1在强化学习阶段之前,没有进行微调SFT,便在性能上刷新SOTA。

也就是说,R1自己就学会了推理,就像战胜人类的AlphaZero/AlphaGo一样。

还有一点,就是连研究人员都没有预料到——R1竟出现了「啊哈」时刻!

研究人员称,这一刻凸显了强化学习的力量和美妙之处。

「我们没直接教模型如何解决问题,只是给予它正确的激励,模型就能自己琢磨出先进的解题办法。」

这是首个验证LLM推理能力的实现可以纯粹通过RL,无需监督微调的开源研究

此次,R1震惊四座的表现,让强化学习算法再次破局,甚至有网友表示,「2025年或许就是RL之年」。

英伟达高级科学家Jim Fan对此意有所指地幽默表示道:

「影响可以通过『内部实现的ASI』或像『草莓计划』这样神乎其神的名称来完成。

影响也可以通过简单地展示原始算法和matplotlib学习曲线来实现。」

毫无疑问,DeepSeek的大方开源,让OpenAI显得更加地相形见绌。

目前,官方研究论文已经发布,以供大家研究。

论文地址:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

推理媲美o1,代码击败人类

DeepSeek-R1在后训练时大量运用强化学习技术,在只有少量标注数据的情况下,就能大幅提升模型的推理能力。

在数学、代码以及自然语言推理等任务中,DeepSeek-R1的性能与OpenAI o1正式版不相上下。

在AIME2024测试中,R1取得了79.8%的成绩,略高于OpenAI-o1-1217。

在MATH-500测试里,它更是获得了97.3%的出色成绩,表现与OpenAI-o1-1217相当,且明显超越其他模型。

在编码类任务方面,R1在代码竞赛中展现出专家级水平,在Codeforces平台上获得了2029的Elo评级,在竞赛里的表现超过了96.3%的人类参赛者。

在工程任务中,DeepSeek-R1的表现也稍胜OpenAI-o1-1217一筹。

DeepSeek-R1的基准测试对比

DeepSeek此次共推出了两款推理模型:DeepSeek-R1-Zero和DeepSeek-R1。

DeepSeek-R1-Zero是通过大规模强化学习(RL)训练而成,没有经过监督微调(SFT)预处理,也展现出出色的推理能力。不过,该模型存在一些问题,比如推理内容可读性欠佳,还会出现语言混杂的情况。

为解决这些问题并进一步提升推理性能,研究团队推出DeepSeek-R1。

DeepSeek-R1在RL前加入多阶段训练,并使用冷启动数据。DeepSeek-R1在推理任务上的表现,与OpenAI-o1-1217相当。

为支持研究社区发展,研究团队开源了DeepSeek-R1-Zero、DeepSeek-R1,以及6个基于Qwen和Llama提炼的DeepSeek-R1模型,参数规模分别为1.5B、7B、8B、14B、32B和70B。

借助DeepSeek-R1的输出,团队提炼出6个小模型并开源。其中,32B和70B参数的模型,在多项能力上达到了与OpenAI o1-mini相当的水平。

从下表中可以看出,DeepSeek-R1-Distill-Qwen-32B在AIME 2024中的得分达到72.6%,在MATH-500中得分为94.3%,在LiveCodeBench中得分为57.2%。这些成绩都远超之前的开源模型,与o1-mini不相上下。

抛弃SFT,全靠强化学习

对于预训练大模型而言,监督微调(SFT)是极为关键甚至必不可少的训练技巧。

SFT就是先用大量人工设定标准的数据进行训练,之后再通过强化学习进一步自我优化。以往在提升模型性能时,依赖于大量的监督数据。

但本项研究证明,即使不借助监督微调(SFT)来启动模型,仅依靠大规模强化学习,同样能显著提升模型的推理能力。不仅如此,若加入少量冷启动数据,模型性能还能进一步提高。

DeepSeek-R1-Zero直接在基础模型上应用RL,无需任何SFT数据。SFT曾是ChatGPT成功的关键,如今R1 Zero却用RL替代了SFT。

图中呈现了DeepSeek-R1-Zero在AIME 2024基准测试里,RL训练期间性能的变化。随着RL训练逐步推进,DeepSeek-R1-Zero的性能稳定且持续提升,证明了RL算法的有效性。

表格对比分析了DeepSeek-R1-Zero和OpenAI的o1-0912模型在多项推理基准测试中的表现。结果显示,通过RL,即便没有监督微调数据,DeepSeek-R1-Zero依然获得了强大的推理能力。这一成果意义非凡,表明模型仅依靠RL就能学习并实现泛化。

DeepSeek-R1

DeepSeek-R1-Zero在从基础模型开启RL训练时,早期的冷启动阶段不太稳定。为避免这种情况,DeepSeek-R1中构建并收集了一小部分长推理链(CoT)数据。

研究者收集了成千上万条冷启动数据,用来微调DeepSeek-V3-Base,这一方法显著提升了可读性,有效处理了多语言混杂的情况。

用冷启动数据对DeepSeek-V3-Base完成微调后,研究者采用与DeepSeek-R1-Zero一样的大规模RL训练流程。

训练时发现,思维链(CoT)经常出现语言混合的情况,特别是当RL提示词涉及多种语言的时候。

为解决这个问题,研究者在RL训练中加入语言一致性奖励,通过计算CoT里目标语言词汇的比例来确定奖励。虽然消融实验显示,这种调整会让模型性能稍有下降,但它符合人类阅读偏好,能让输出内容可读性更强。

当以推理为导向的RL达到收敛后,研究者借助此时得到的检查点,收集用于监督微调(SFT)的数据,用于后续的训练。

与一开始主要聚焦推理的冷启动数据不同,这个阶段会引入其他领域的数据,从而提升模型在写作、角色扮演以及其他通用任务方面的能力。

为了让模型更好地契合人类偏好,研究者运用奖励信号,搭配多样化的提示词来训练模型。通过整合奖励信号和多样化的数据分布,成功训练出一款模型。它不仅推理能力出色,还能将实用性和安全性放在首位。

团队还分享了失败的尝试,包括过程奖励模型和蒙特卡洛搜索。同时他们也强调了,这并不意味着这些方法无法开发出有效的推理模型。

未来,团队打算从这几个方向对DeepSeek-R1展开研究:

- 提升通用能力:目前,DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和JSON输出这些任务上,能力不如DeepSeek-V3。接下来,团队计划研究如何借助长链推理(CoT),提升在这些领域的任务处理能力。

- 解决语言混合问题:DeepSeek-R1当前主要针对中文和英文做了优化,在处理其他语言的查询时,可能会出现语言混合的情况。比如用户用非中文和英文提问,DeepSeek-R1仍可能用英文推理并作答。计划在后续更新中解决这个问题。

- 优化提示词工程:评估DeepSeek-R1时,发现它对提示词很敏感。少样本提示词常常会降低其性能。所以,建议用户在零样本设置下,直接描述问题并指定输出格式,以获取最佳效果。

- 改进软件工程任务:因为评估过程耗时太长,影响了RL训练的效率,导致DeepSeek-R1在软件工程基准测试上,未取得明显进步。未来会通过对软件工程数据采用拒绝采样,或者在RL中引入异步评估的方式来提高效率。

(本文转自 新智元报道)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/879661.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多种路径规划方案,满足应用个性化导航需求

在快节奏的都市生活中,路径规划已成为日常出行的核心环节。用户无论前往何地,都期望能够迅速获取所有可能的路线,并根据预估的出行时间,轻松挑选出最适合自己的出行方案。在现代生活中,路径规划的需求无处不在,从导航应用中的个性化路线推荐,到外卖服务中的高效配送规划…

npm ERR missing script dev

没有dev脚本 看一下你的package.json 文件里面是哪个脚本 执行 npm run serve

canvas去除图片空白部分,图片裁剪

canvas去除图片空白部分实现图片的缩小,可用于vue-signature-pad 签名实现签名裁剪,图片裁剪 电子签名连接 https://blog.csdn.net/Shids_/article/details/135695601<!DOCTYPE html> <html><head><meta charset="utf-8" /><meta name=…

Avalonia系列文章之控件简介

对于GUI(图形用户页面)程序来说,控件是创建用户页面的基本构建块,不同的控件代表不同的功能,如按钮,文本框,滑块等。在Avalonia UI中,了解控件的使用及其特性对于创建应用程序至关重要。对于GUI(图形用户页面)程序来说,控件是创建用户页面的基本构建块,不同的控件代表不…

DeepSeek+AnythingLLM打造自己大模型知识库

有些用户或是专家在项目建设中提出来要提炼工艺库、模型库、算法库等知识库,可以试着让deepseek成为每个角色的助手,例如工艺的、信息化的、设备的、电气的等角色,让deepseek成为自己,再不断的迭代它。deepseek扮演AI助手的角色,应用越来越发挥出来应有的价值。 DeepSeek+…

基于 AI 的代码审计工具,支持多种语言,支持DeepSeek-R1,ChatGPT-4o等多种大模型。

免责声明 仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者及发布者不承担任何法律及连带责任。工具介绍基于 AI 的代码安全审计工具,支持多种编程语言的代码分析,可以帮助开发者快速发现代码中的潜在安全漏洞。支持DeepSeek-R1,ChatGPT-…

GEO SFxxxx系列振弦式应变计 混凝土结构监测应变和温度

GEO SFxxxx系列振弦式应变计 混凝土结构监测应变和温度振弦式应变计被广泛用于长期埋设在水工建筑物或其他混凝土结构物内部,如梁、柱、桩基、挡土墙、衬砌、墩以及基岩等,用于测量埋设点的线性变形(应变)和应力。同时,它也可以同时测量埋设点的温度。 GEO SFxxxx系列振弦…

部署mysql

一、环境名称 备注操作命令对象 Docker 版本26.1.3远程操作系统 CentOS 7.9 64位远程管理工具 FinalShell 版本4.3.11安装软件名称 MySQL 版本8.3.0二、拉取镜像 2.1 查找 Docker Hub 上的 MySQL 镜像 docker search mysql2.2 拉取MySQL镜像 由于我本地用的是8.3.0的,所以服务…

虚拟机安装麒麟操作系统

1.新建虚拟机 参考地址:https://blog.csdn.net/weixin_52799373/article/details/144770961

7 个丑陋的利基网站,每月赚超过5000美元

​这张图由作者使用Ideogram制作。很难相信,但一些1999年的老旧丑陋网站依然存在。令人惊讶的是,它们的表现非常好。 这些网站有闪烁的文字、鲜艳的颜色和笨重的设计,让今天的网页设计师都感到不舒服。 但你猜怎么着?这些“丑陋”的网站正在为它们的拥有者赚取大量的钱。 现…

【榜单解析】2025年最具潜力的10大项目管理软件,你选对了吗?

在当今竞争激烈的商业环境中,项目管理的高效性直接影响着企业的成败。一款合适的项目管理软件,能够帮助团队提升协作效率、优化资源分配、确保项目按时交付。随着科技的不断发展,市场上涌现出了各种各样的项目管理软件,让人眼花缭乱。今天,我们就为大家详细解析 2025 年最…