DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。
本文将从一个可本地运行的基础模型起步,并参照其技术报告,完全从零开始构建 DeepSeek R1,理论结合实践,逐步深入每个训练环节。通过可视化方式,由浅入深地解析 DeepSeek R1 的工作机制。
本文的代码可在github上获得,并且我将英文的注释翻译成了中文,项目文件结构:
https://avoid.overfit.cn/post/ac6d4be0a234412ea00032737365638c