DeepSeek开源周技术全景

news/2025/2/28 16:43:47/文章来源:https://www.cnblogs.com/txw1958/p/18743468

2024年2月24日至28日，国内AI领军企业DeepSeek以"开放即进化"为核心理念，举办了一场震动全球AI社区的"开源周"。在这场持续五天的技术盛宴中，DeepSeek连续发布了5款核心开源项目，覆盖算法优化、通信加速、矩阵计算、并行策略、数据存储全栈技术领域，展现出国产AI在底层技术上的突破性实力。其开源项目不仅以代码量为单位实现效率跃升（如300行代码定义矩阵乘法新范式），更通过真实场景测试数据证明：国产技术已具备重构全球AI基础设施的潜力。

第一天 FlashMLA

DeepSeek（深度求索）发布首个开源项目FlashMLA。根据DeepSeek在GitHub社区披露的信息，FlashMLA是适用于Hopper GPU（一种英伟达图形处理器架构）的高效MLA（多头潜注意力）解码内核，针对可变长度序列服务进行了优化。

https://github.com/deepseek-ai/DeepEP

FlashMLA 的主要应用场景包括：

长序列处理：适合处理数千个标记的文本，如文档分析或长对话。

实时应用：如聊天机器人、虚拟助手和实时翻译系统，降低延迟。

资源效率：减少内存和计算需求，便于在边缘设备上部署。

目前 AI 训练或推理主要依赖英伟达 H100 / H800，但软件生态还在完善。

由于 FlashMLA 的开源，未来它可以被集成到 vLLM（高效 LLM 推理框架）、Hugging Face Transformers 或 Llama.cpp（轻量级 LLM 推理）生态中，从而有望让开源大语言模型（如 LLaMA、Mistral、Falcon）运行得更高效。

同样的资源，能干更多的活，还省钱。

因为 FlashMLA 拥有更高的计算效率（580 TFLOPS）和更好的内存带宽优化（3000 GB/s），同样的 GPU 资源就可以处理更多请求，从而降低单位推理成本。

对于 AI 公司或者云计算服务商来说，使用 FlashMLA 也就意味着更低的成本、更快的推理，让更多 AI 公司、学术机构、企业用户直接受益，提高 GPU 资源的利用率。

第二天 DeepEP

发布专家并行通信库 DeepEP：首个面向MoE模型的开源EP通信库，支持实现了混合专家模型训练推理的全栈优化！

https://github.com/deepseek-ai/FlashMLA

DeepEP 的核心亮点

✅ 高效优化的 All-to-All 通信： DeepEP 提供了高性能、低延迟的 GPU 集群内和集群间 all-to-all 通信内核，这正是 MoE 模型中专家路由和组合的关键所在。你可以把它理解为 MoE 模型数据高速公路的升级版！

✅ 集群内 (Intranode) 和集群间 (Internode) 全面支持：无论是单机多卡，还是多机多卡，DeepEP 都能完美驾驭。它充分利用 NVLink 和 RDMA 等高速互联技术，最大化通信带宽

✅ 训练和推理预填充 (Prefilling) 的高性能内核：对于模型训练和推理预填充阶段，DeepEP 提供了高吞吐量的内核，保证数据传输速度，加速模型迭代和部署

✅ 推理解码 (Decoding) 的低延迟内核：针对对延迟敏感的推理解码场景，DeepEP 也准备了低延迟内核，采用纯 RDMA 通信，最大限度减少延迟，让你的模型响应更快！

✅ 原生 FP8 精度支持：紧跟前沿技术，DeepEP 原生支持 FP8 低精度运算，进一步提升计算效率，节省显存

✅ 灵活的 GPU 资源控制，实现计算-通信重叠： DeepEP 支持精细化的 SM (Streaming Multiprocessors) 数量控制，并引入了基于 Hook 的通信-计算重叠方法，巧妙地在后台进行通信，不占用宝贵的 GPU 计算资源！这意味着什么？你的 GPU 可以更专注于计算，通信交给 DeepEP 在幕后默默加速！

第三天 DeepGEMM

DeepGEMM是一个专注于为FP8高效通用矩阵乘法（GEMM）库，支持普通及混合专家（MoE）分组的矩阵计算需求，可动态优化资源分配以提升算力效率。值得一提的是，DeepGEMM设计目标是为DeepSeek-V3/R1模型的训练与推理提供简洁高效的底层支持，尤其针对Hopper架构GPU（如H800）优化，兼顾高性能与低成本。

https://github.com/deepseek-ai/DeepGEMM

DeepGEMM 在各种计算场景下表现出色。对于标准矩阵乘法，与基于 CUTLASS 3.6 的优化实现相比，速度提升 1.0 到 2.7 倍不等。小批量数据处理（M=64 或 128）获得了最显著的加速，最高达到 2.7 倍。

对于混合专家模型的计算，DeepGEMM 提供的两种特殊数据排列方式也有明显优势。连续排列方式适用于训练和批量推理阶段，速度提升约 1.1 到 1.2 倍；掩码排列方式专为实时推理设计，支持与 CUDA 图技术配合使用，同样能提速 1.1 到 1.2 倍。

在 Hopper GPU 上最高可达 1350+FP8 TFLOPS。其他优点包括：

✅没有过多的依赖，像教程一样简洁

✅完全即时编译

✅核心逻辑约为 300 行，但在大多数矩阵大小上均优于专家调优的内核

✅支持密集布局和两种 MoE 布局

第四天 DualPipe、EPLB和profile-data

DeepSeek“开源周”第四弹，开源最新优化并行策略，包括DualPipe、专家并行负载均衡器（EPLB）和全流程性能数据（profile-data）。

https://github.com/deepseek-ai/DualPipe

https://github.com/deepseek-ai/eplb

https://github.com/deepseek-ai/profile-data

据介绍，DualPipe和EPLB是面向大规模AI模型训练的两项核心技术，分别聚焦于分布式训练效率优化和专家并行负载均衡，均为V3/R1而设计。

具体而言，DualPipe是一种双向流水线并行算法，它通过“双向管道调度”和“计算通信重叠”，旨在减少分布式训练中的流水线“气泡”（空闲时间），让训练过程像流水线一样顺畅，提升GPU利用率。

l 架构适配:专为英伟达 Hopper 架构 GPU 定制，深度契合其特性，大幅提升运行效率。

l 分页 KV 缓存:创新分页存储关键数据，GPU 可快速精准定位，减少读取延迟，加速计算流程。

l BF16 精度:平衡计算准确性与内存占用，降低内存负担，提升数据传输效率，节约硬件资源成本。

l 可变序列处理:能灵活应对自然语言处理、视频分析等场景中输入数据长度的差异，高效完成任务，拓展应用场景。

l 高性能表现:在 H800 GPU 上实现 3000GB/s 内存带宽与 580 TFLOPS 计算性能，轻松应对复杂模型训练与实时推理任务。

l 实践验证:已在 DeepSeek 实际业务中成功部署，经受高并发、大数据量考验，证明其在真实生产环境中的可靠性与价值。

第五天 3FS

DeepSeek开源周第五天，DeepSeek在官方X账号宣布开源3FS，它是所有Deepseek数据访问的助推器。

https://github.com/deepseek-ai/3FS

萤火虫文件系统（3FS）是一个高性能的分布式文件系统，旨在应对AI训练和推理工作负载的挑战。它利用现代SSD和RDMA网络，提供一个共享存储层，简化分布式应用程序的开发。3FS的主要特性和优势包括：

性能与易用性

解耦架构：结合数千个SSD的吞吐量和数百个存储节点的网络带宽，使应用程序能够以无位置感知的方式访问存储资源。

强一致性：通过链式复制与分配查询（CRAQ）实现强一致性，使应用程序代码简单且易于理解。

文件接口：开发了由事务性键值存储（如FoundationDB）支持的无状态元数据服务。文件接口广为人知且无处不在，无需学习新的存储API。

多样化工作负载

数据准备：将数据分析管道的输出组织成层次化的目录结构，并高效管理大量中间输出。

数据加载器：通过跨计算节点随机访问训练样本，消除了预取或混排数据集的需求。

检查点：支持大规模训练的高吞吐量并行检查点。

推理的KVCache：提供了一种经济高效的替代方案，替代基于DRAM的缓存，提供高吞吐量和显著更大的容量。

总结

在这场开源盛宴中，最值得关注的是DeepSeek展现出的技术普惠理念：

300行代码定义矩阵乘法新范式，降低芯片研发门槛
双向流水线设计让中小企业也能玩转千卡集群
RDMA+SSD组合方案推动数据基础设施平民化

正如DeepSeek官方所言："我们相信，AI技术的发展速度应该由全球开发者共同决定。"这场开源周不仅是一次技术展示，更是中国AI企业向世界发出的开放宣言——通过共享底层技术，加速人工智能惠及全人类的进程。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/891221.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

制作 archlinux 内存系统盘

制作 archlinux 内存系统盘Archisoextra / aur 是自动化制作最新版 archlinux 镜像的工具集，可用于制作定制化的 archlinux 镜像。 1. 准备工作首先安装 Archiso 相关包：sudo pacman -S archiso复制 releng 配置方案到合适位置：sudo cp -r /usr/share/archiso/configs/rel…

使用匠心创D133EBS记录

匠心创D133EBS 的RT_Thread使用记录硬件，文档基于立创衡山派【立创衡山派D133EBS开发板】GPIO框架使用 | 立创开发板技术文档中心仅做个人学习记录拉取SDK源码在英文路径下新建文件夹（不包含中文） git clone --depth=1 https://gitee.com/lcsc/luban-lite.git成功后出现…

$容斥、反演、卷积与高维前缀和$