DeepSeek-R1环境搭建推理测试

引子

这两天国货之光DeepSeek-R1火爆出圈,凑个热闹。过来看看 aha moment(顿悟时刻)的神奇,OK,我们开始吧。

一、模型介绍

1月20日,中国AI公司深度求索(DeepSeek)发布的DeepSeek-R1模型,凭借其独特的强化学习(RL)训练方法,首次让AI展现出类人的“顿悟时刻”——在解决复杂问题时,模型会突然停下思考,自主修正推理路径,甚至用自然语言标注“等等,这一步可能有误”。(AI在思考的过程中突然停下:“等等,等等。这是一个顿悟时刻。让我们一步一步地重新评估一下,以确定正确的总和...”)知名AI评测员Matthew Berman表示,R1拥有他所见过的最像人类的内心独白。

DeepSeek-R1的这种特点,和它独特的训练方式有关。传统的AI训练有三个阶段:预训练、SFT(监督微调)、RL(强化学习)。打个比方,传统AI需经历三阶段学习:先在预训练阶段里“背书自学”基础知识,再在SFT阶段里“抄写教案”模仿人类示范,最后在RL阶段里“模拟考试”优化表现。而R1 Zero跳过了SFT阶段,直接进入了RL阶段。也就是说,DeepSeek-R1直接砍掉用人工标准数据训练的“模仿”环节,而是仅凭基础语言能力和数学规则,在持续解题试错中自悟知识体系。

SFT的使用是当年ChatGPT成功的关键,而R1 Zero完全用强化学习替代了SFT。DeepSeek-R1成功的秘诀在于构建了一个智能训练场,这一系统由三个技术组件构成:动态题目生成系统、过程验证体系和协同工作机制。用一个比喻来说,每解完一题,系统自动生成更难的变体题,并实时验证解题过程逻辑是否自洽。它迫使AI像数学家般提炼方法论,甚至能将几何证明中的反证法迁移到代码检测中。这个训练过程展示了强化学习的潜力。未来的AI发展,依然充满无限可能。

强大,便宜,还开源。据介绍,DeepSeek-R1的功能比肩OpenAI o1。根据DeepSeek官方公布的数据,DeepSeek-R1在AIME2024上获得了79.8%的成绩,略高于OpenAI-o1-1217的79.2%。在MATH-500上,它获得了97.3%的惊人成绩,表现略高于OpenAI-o1-1217的96.4%,并明显优于其他模型。在编码相关的任务中,DeepSeek-R1在Codeforces上获得了2029 Elo评级,在竞赛中表现优于96.3%的人类参与者。对于工程相关的任务,DeepSeek-R1的表现略优于OpenAI-o1-1217

二、环境搭建

模型下载,硬件受限,下载1.5B模型

https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/tree/main

docker run -it -v /datas/work/zzq/:/workspace --gpus=all --net=host deepseek_r1:v1.0 bash

pip install vllm==v0.6.2 -i Simple Index

三、测试推理

vllm serve DeepSeek-R1-Distill-Qwen-1.5B --tensor-parallel-size 1 --max-model-len 32768 --enforce-eager --dtype=half

        仔细阅读DeepSeek-R1的思考过程,就能发现它思考时的语言风格十分自然,还会随口蹦出一些“让我仔细想一想”这样的活泼表述。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/877168.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Centos7解决 pip is configured with locations that require TLS/SSL 问题

​ 当在 CentOS 系统中遇到 pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available 错误时,这通常意味着 Python 的 SSL 模块没有正确安装或配置,从而导致pip无法使用安全连接来下载包。以下是解决此问题的详细步骤: …

突破自我,研发必须掌握的软技能!

0 你的问题,我知道! 光有硬技能远不够,很多研发硬技能不错,但发展有明显天花板。 影响研发职业发展走多远的核心能力有啥?技术只是打底和起步,长期职业发展看综合能力,各种软技能组合。研发常忽视或理解片面的能力: 1 沟通表达 1.1 啥是沟通表达? 不是口头“能说”,而…

小智带货助手【制作教程】增加音视频转换加贴纸等

根据用户反馈,【制作教程】在原有的功能基础之上,小智带货助手额外增加了:视频裁剪、音视频转换以及提取、音视频合并、图片转视频、音频截取、视频加贴纸等。便于直接对下载的素材进行二创修改。 截取音视频:begin为开始时间(毫秒),duration为要截取的时长(毫秒);注意单位…

昆明理工大学MBA25考研复试真题

--昆工MBA考研、管理与经济学院、125100工商管理、125602项目管理、199管理类综合能力、F009 政治、F008政治+项目管理概论

Windows server 2025 版本号 适用于 Windows Server 2025 的汇报

Windows server 2025 版本号 适用于 Windows Server 2025 的汇报 Windows Server 2025 是我们的年度频道中的最新版本。 在此页的左侧,你将找到针对此版本的 Windows Server 发布的所有更新的列表。 你还可以找到有关版本和任何已知问题的更多信息。 安装最新的更新可确保你还…

04. 用户管理

一、添加用户我们可以使用 adduser 命令 添加新用户。 sudo adduser 用户名二、更改用户密码创建完用户之后,我们还可以使用 passwd 命令 更改用户的密码。 sudo passwd 用户名三、查看用户信息我们还可以使用 id 命令 查看用户是否存在。 id 用户名如果我们想查看更多人的用户…

java中的HashSet与 == 和 equals的区别

什么是HashSet 在 Java 中,HashSet 是一个基于哈希表实现的集合类,它实现了 Set 接口 HashSet 的主要特点是:1,2 HashSet 的主要特点是 1,集合中的数据不能够重复 2,存储的数据是无序的(元素的存储顺序与插入顺序无关) 3,允许 null 值: 可以存储一个 null 元素(感觉这个不算)…

java中的HashSet

什么是HashSet 在 Java 中,HashSet 是一个基于哈希表实现的集合类,它实现了 Set 接口 HashSet 的主要特点是:1,2 HashSet 的主要特点是 1,集合中的数据不能够重复 2,存储的数据是无序的(元素的存储顺序与插入顺序无关) 3,允许 null 值: 可以存储一个 null 元素(感觉这个不算)…

记录本地部署自己的DeepSeek 大模型AI

准备工具Ollama:用于简化大型语言模型(LLM)的本地部署和使用,可以同时支持多个大模型,开发者能够方便地在本地环境中运行和测试不同的语言模型,简单的说就是相当于一个容器。官网地址:https://ollama.com/ChatBox AI:是一款用于接入各种大模型的客户端,使在大模型AI时…

CF999

A link首先,每次操作(第一次除外)之前\(s\)一定是一个奇数,那么我们要再加一个奇数才能让它变为偶数分数加一。 那么就是说操作过至少一次后,有几个奇数就有几分。 那么如果有至少一个偶数,那么第一次用偶数可以得分,后面再用奇数可以得分,偶数的不了分,最终得分就是奇…

1.30

1.30 Maze - 洛谷 | 计算机科学教育新生态 (luogu.com.cn)从一个空格走cnt - k个点并标记,然后将没有标记的点设为A即可import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.OutputStream; import java.io.OutputS…

java中jdk的下载地址

java中jdk的下载地址 https://www.oracle.com/java/technologies/downloads/#java17-windows作者:流年少年 出处:https://www.cnblogs.com/ishoulgodo/ 想问问题,打赏了卑微的博主,求求你备注一下的扣扣或者微信;这样我好联系你;(っ•̀ω•́)っ✎⁾⁾!如果觉得这篇文章…