DeepSeek-R1？别信新闻，它真能打败 OpenAI？-编程知识

DeepSeek-R1？别信新闻，它真能打败 OpenAI？

news/2025/3/6 9:59:17/文章来源:https://www.cnblogs.com/jellyai/p/18696227

Yy DeepSeek-R1？别信新闻

它真的是那个打败 OpenAI 的开源黑马模型，还是又一条假新闻？

Fabio Matricardi

它真的那么厉害……是在哪方面？

前言：DeepSeek在大模型小型以及优化的道路上探索蒸馏和纯强化学习的路径获得的一点成绩确实让美国人紧张了一把，但同时也招致了更严格的封锁！中华老祖宗的祖训在大部分时候或许都是有意义的：厚积薄发，韬光养晦。今天的文章则是来自国外的一名AI作者对DeepSeek的相对客观的评估结论报告。

“我不相信他们说的，你也不该相信。为了保持一致，你甚至不该相信我的话！”

但我会用事实和证据来证明我的观点。

已经有人开始指出这些模型的训练数据中隐藏的偏见和宣传：另一些人则在测试它们，验证它们的实际能力。

对我来说，我又一次得到了对自己预测的确认：中国要赢下 AI 竞赛了！

这篇文章讲的是全新的推理家族——DeepSeek-R1-Zero 和 DeepSeek-R1，特别是 DeepSeek 从这些大块头中蒸馏出来的模型。而我们要评测的是这个家族里最小的那个。

DeepSeek-R1 是开源的，正在挑战 OpenAI 的 Model o1

当 DeepSeek-AI 实验室发布他们的第一代推理模型——DeepSeek-R1-Zero 和 DeepSeek-R1 时，生成式 AI 社区炸开了锅。有人狂吹，也有人狠批，甚至可以写一本书了。

顺便说一句，这一节的标题直接来自 DeepSeek 的官方网页。对我来说，这仍然只是一个“说法”而已。

DeepSeek-R1 是 Mixture of Experts（MoE）模型，采用反思（Reflection）范式训练，基于 DeepSeek-V3

这个模型很庞大，总共有 6710 亿个参数，但在推理时只有 370 亿处于激活状态。

根据他们的发布说明，这个模型的 32B 和 70B 版本可以与 OpenAI-o1-mini 相媲美。而在我看来，中国 AI 实验室真正的成就是：他们用更弱的基础模型（Qwen-2.5、Llama-3.1 和 Llama-3.3）在 R1 蒸馏数据上进行训练，从而造出了另外六个模型。

如果你不太理解“蒸馏”是什么意思，简单来说，蒸馏就是让一个更大、更强的模型用“合成数据”来“教”一个更小的模型。

但你试过它们吗？

我自己测试过，以下是我的评测结果。所有日志和运行代码都在我的 GitHub 仓库里，你可以自己跑一遍：

https://github.com/fabiomatricardi/YouAreTheBenchmark/tree/main/DeepSeek R1 Distill Qwen 1.5B?source=post_page-----4874c4542797--------------------------------

以下是我个人基准测试的结果:

基于反馈修订后的基准测试结

推理模型的诞生

推理模型的核心是反思提示（Reflection Prompt），这个概念自 Reflection 70B 发布以来成为焦点。https://x.com/mattshumer_/status/1831767014341538166

它的训练方法是 Reflection-Tuning，这是一种让 LLM（大语言模型）自己修正错误的技术。

这种方法最近在研究论文和提示工程技术中成为趋势——我们基本上是在强迫 LLM“思考”。更具体地说，生成式 AI 现在太快了！

由于下一个 token 生成的计算约束，模型能进行的计算量取决于它之前看到的 token 数量。

有一篇很有趣的论文《Think before you speak: Training Language Models With Pause Tokens》（在发言前思考：用暂停 token 训练语言模型）提出了一种方法——在预训练和推理时加入 token，让模型有时间“思考”。结果令人惊讶！

https://arxiv.org/abs/2310.02226?source=post_page-----4874c4542797--------------------------------

暂停训练的实证评估（Pause-Training）

我们对仅解码（decoder-only）模型（参数规模分别为 1B 和 130M）进行了暂停训练（pause-training）的实证评估，并在 C4 语料库进行因果预训练（causal pretraining）。然后，我们在多个下游任务上进行了测试，包括推理（reasoning）、问答（QA）、一般理解（general understanding）和事实召回（fact recall）。

我们的主要发现是：

如果模型在预训练和微调（fine-tuning）阶段都加入了推理时延迟（inference-time delays），它的性能会得到提升。

在 1B 规模的模型上，我们发现其在 9 项任务中的 8 项上都取得了提升，其中最显著的改进如下：

• 在 SQuAD QA 任务上，EM（Exact Match）分数提升 18%。

• 在 CommonSenseQA 任务上，准确率提升 8%。

• 在 GSM8k（数学推理任务）上，准确率提升 1%。

Reflection 70B 的起源

Reflection 70B 的承诺最早可以追溯到 2024 年 9 月，当时 Matt Shumer 在 Twitter 上宣布他的 SOTA（State-of-the-Art，最先进）模型，具备反思步骤推理（Reflection Steps Reasoning）能力。

根据作者的说法，Reflection 70B 的核心技术非常简单，但威力巨大。

当前的 LLM 存在的问题：幻觉与自我纠正

目前的大语言模型（LLM）有产生幻觉（hallucination）的倾向，但它们无法意识到自己何时产生了幻觉。

Reflection-Tuning 技术让 LLM 能够识别自己的错误，并在最终作答前进行修正。