DeepSeek开源周技术全景

news/2025/2/28 16:43:47/文章来源:https://www.cnblogs.com/txw1958/p/18743468

2024年2月24日至28日,国内AI领军企业DeepSeek以"开放即进化"为核心理念,举办了一场震动全球AI社区的"开源周"。在这场持续五天的技术盛宴中,DeepSeek连续发布了5款核心开源项目,覆盖算法优化、通信加速、矩阵计算、并行策略、数据存储全栈技术领域,展现出国产AI在底层技术上的突破性实力。其开源项目不仅以代码量为单位实现效率跃升(如300行代码定义矩阵乘法新范式),更通过真实场景测试数据证明:国产技术已具备重构全球AI基础设施的潜力。

第一天 FlashMLA

DeepSeek(深度求索)发布首个开源项目FlashMLA。根据DeepSeek在GitHub社区披露的信息,FlashMLA是适用于Hopper GPU(一种英伟达图形处理器架构)的高效MLA(多头潜注意力)解码内核,针对可变长度序列服务进行了优化。

https://github.com/deepseek-ai/DeepEP

FlashMLA 的主要应用场景包括: 

长序列处理:适合处理数千个标记的文本,如文档分析或长对话。

实时应用:如聊天机器人、虚拟助手和实时翻译系统,降低延迟。

资源效率:减少内存和计算需求,便于在边缘设备上部署。

目前 AI 训练或推理主要依赖英伟达 H100 / H800,但软件生态还在完善。 

由于 FlashMLA 的开源,未来它可以被集成到 vLLM(高效 LLM 推理框架)、Hugging Face Transformers 或 Llama.cpp(轻量级 LLM 推理) 生态中,从而有望让开源大语言模型(如 LLaMA、Mistral、Falcon)运行得更高效。 

同样的资源,能干更多的活,还省钱。 

因为 FlashMLA 拥有更高的计算效率(580 TFLOPS)和更好的内存带宽优化(3000 GB/s),同样的 GPU 资源就可以处理更多请求,从而降低单位推理成本。 

对于 AI 公司或者云计算服务商来说,使用 FlashMLA 也就意味着更低的成本、更快的推理,让更多 AI 公司、学术机构、企业用户直接受益,提高 GPU 资源的利用率。 

 

第二天 DeepEP

发布专家并行通信库 DeepEP:首个面向MoE模型的开源EP通信库,支持实现了混合专家模型训练推理的全栈优化!

https://github.com/deepseek-ai/FlashMLA

DeepEP 的核心亮点

✅ 高效优化的 All-to-All 通信: DeepEP 提供了高性能、低延迟的 GPU 集群内和集群间 all-to-all 通信内核,这正是 MoE 模型中专家路由和组合的关键所在。 你可以把它理解为 MoE 模型数据高速公路的升级版!

✅ 集群内 (Intranode) 和集群间 (Internode) 全面支持: 无论是单机多卡,还是多机多卡,DeepEP 都能完美驾驭。 它充分利用 NVLink 和 RDMA 等高速互联技术,最大化通信带宽

✅ 训练和推理预填充 (Prefilling) 的高性能内核: 对于模型训练和推理预填充阶段,DeepEP 提供了高吞吐量的内核,保证数据传输速度,加速模型迭代和部署

✅ 推理解码 (Decoding) 的低延迟内核: 针对对延迟敏感的推理解码场景,DeepEP 也准备了低延迟内核,采用纯 RDMA 通信,最大限度减少延迟,让你的模型响应更快!

✅ 原生 FP8 精度支持: 紧跟前沿技术,DeepEP 原生支持 FP8 低精度运算,进一步提升计算效率,节省显存

✅ 灵活的 GPU 资源控制,实现计算-通信重叠: DeepEP 支持精细化的 SM (Streaming Multiprocessors) 数量控制,并引入了基于 Hook 的通信-计算重叠方法,巧妙地在后台进行通信,不占用宝贵的 GPU 计算资源! 这意味着什么? 你的 GPU 可以更专注于计算,通信交给 DeepEP 在幕后默默加速!

 

第三天 DeepGEMM

DeepGEMM是一个专注于为FP8高效通用矩阵乘法(GEMM)库,支持普通及混合专家(MoE)分组的矩阵计算需求,可动态优化资源分配以提升算力效率。值得一提的是,DeepGEMM设计目标是为DeepSeek-V3/R1模型的训练与推理提供简洁高效的底层支持,尤其针对Hopper架构GPU(如H800)优化,兼顾高性能与低成本。

https://github.com/deepseek-ai/DeepGEMM

DeepGEMM 在各种计算场景下表现出色。 对于标准矩阵乘法,与基于 CUTLASS 3.6 的优化实现相比,速度提升 1.0 到 2.7 倍不等。小批量数据处理(M=64 或 128)获得了最显著的加速,最高达到 2.7 倍。

对于混合专家模型的计算,DeepGEMM 提供的两种特殊数据排列方式也有明显优势。 连续排列方式适用于训练和批量推理阶段,速度提升约 1.1 到 1.2 倍;掩码排列方式专为实时推理设计,支持与 CUDA 图技术配合使用,同样能提速 1.1 到 1.2 倍。

在 Hopper GPU 上最高可达 1350+FP8 TFLOPS。其他优点包括:

✅没有过多的依赖,像教程一样简洁

✅完全即时编译

✅核心逻辑约为 300 行,但在大多数矩阵大小上均优于专家调优的内核

✅支持密集布局和两种 MoE 布局

 

第四天 DualPipe、EPLB和profile-data

DeepSeek“开源周”第四弹,开源最新优化并行策略,包括DualPipe、专家并行负载均衡器(EPLB)和全流程性能数据(profile-data)。

https://github.com/deepseek-ai/DualPipe

https://github.com/deepseek-ai/eplb

https://github.com/deepseek-ai/profile-data

据介绍,DualPipe​和​EPLB​是面向大规模AI模型训练的两项核心技术,分别聚焦于分布式训练效率优化​和专家并行负载均衡,均为V3/R1而设计。

具体而言,DualPipe是一种双向流水线并行算法,它通过“双向管道调度”和“计算通信重叠”,旨在减少分布式训练中的流水线“气泡”(空闲时间),让训练过程像流水线一样顺畅,提升GPU利用率。

l   架构适配:专为英伟达 Hopper 架构 GPU 定制,深度契合其特性,大幅提升运行效率。

l   分页 KV 缓存:创新分页存储关键数据,GPU 可快速精准定位,减少读取延迟,加速计算流程。

l   BF16 精度:平衡计算准确性与内存占用,降低内存负担,提升数据传输效率,节约硬件资源成本。

l   可变序列处理:能灵活应对自然语言处理、视频分析等场景中输入数据长度的差异,高效完成任务,拓展应用场景。

l   高性能表现:在 H800 GPU 上实现 3000GB/s 内存带宽与 580 TFLOPS 计算性能,轻松应对复杂模型训练与实时推理任务。

l   实践验证:已在 DeepSeek 实际业务中成功部署,经受高并发、大数据量考验,证明其在真实生产环境中的可靠性与价值。

 

第五天 3FS

DeepSeek开源周第五天,DeepSeek在官方X账号宣布开源3FS,它是所有Deepseek数据访问的助推器。

https://github.com/deepseek-ai/3FS

萤火虫文件系统(3FS)是一个高性能的分布式文件系统,旨在应对AI训练和推理工作负载的挑战。它利用现代SSD和RDMA网络,提供一个共享存储层,简化分布式应用程序的开发。3FS的主要特性和优势包括:

性能与易用性

解耦架构:结合数千个SSD的吞吐量和数百个存储节点的网络带宽,使应用程序能够以无位置感知的方式访问存储资源。

强一致性:通过链式复制与分配查询(CRAQ)实现强一致性,使应用程序代码简单且易于理解。

文件接口:开发了由事务性键值存储(如FoundationDB)支持的无状态元数据服务。文件接口广为人知且无处不在,无需学习新的存储API。

多样化工作负载

数据准备:将数据分析管道的输出组织成层次化的目录结构,并高效管理大量中间输出。

数据加载器:通过跨计算节点随机访问训练样本,消除了预取或混排数据集的需求。

检查点:支持大规模训练的高吞吐量并行检查点。

推理的KVCache:提供了一种经济高效的替代方案,替代基于DRAM的缓存,提供高吞吐量和显著更大的容量。

 

总结

在这场开源盛宴中,最值得关注的是DeepSeek展现出的技术普惠理念:

  • 300行代码定义矩阵乘法新范式,降低芯片研发门槛
  • 双向流水线设计让中小企业也能玩转千卡集群
  • RDMA+SSD组合方案推动数据基础设施平民化

正如DeepSeek官方所言:"我们相信,AI技术的发展速度应该由全球开发者共同决定。"这场开源周不仅是一次技术展示,更是中国AI企业向世界发出的开放宣言——通过共享底层技术,加速人工智能惠及全人类的进程。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/891221.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

制作 archlinux 内存系统盘

制作 archlinux 内存系统盘Archisoextra / aur 是自动化制作最新版 archlinux 镜像的工具集,可用于制作定制化的 archlinux 镜像。 1. 准备工作​首先安装 Archiso 相关包:sudo pacman -S archiso复制 releng 配置方案到合适位置:sudo cp -r /usr/share/archiso/configs/rel…

使用匠心创D133EBS记录

匠心创D133EBS 的RT_Thread使用记录 硬件,文档基于立创衡山派【立创衡山派D133EBS开发板】GPIO框架使用 | 立创开发板技术文档中心 仅做个人学习记录 拉取SDK源码 在英文路径下新建文件夹(不包含中文) git clone --depth=1 https://gitee.com/lcsc/luban-lite.git成功后出现…

容斥、反演、卷积与高维前缀和

数学的大网磅礴地展开了。容斥、反演、卷积与高维前缀和 StreamDraft我觉得,我们最开始使用的时候,肯定是从最普通基础的容斥原理讲起的,因为这就是我们实际遇到的一种问题:问题 1 通过集合交求集合并 假设班里有 \(10\) 个学生喜欢数学,\(15\) 个学生喜欢语文,\(21\) 个…

win10 安装 达梦数据库客户端管理程序

下载地址: https://www.dameng.com/list_103.html 选择cpu和操作系统 下载前要登录,你就登录一下就可以了。 下载的文件为:dotnet-sdk-3.1.426-win-x86.zip 解析后现将dm8_20250122_x86_win_64.iso解压,运行Setup.exe 只安装客户端,把服务器这儿去勾

Pcigo 图片名字修改插件- rename-file

picgo-plugin-rename-file A PicGo plugin for customizing file name. 可以很自定义生成文件存储路径的插件,文件(包括路径)名称支持日期、随机字符串、文件MD5、原文件名、原文件目录结构等规则。 更多需求,欢迎PR或提ISSUE。例如 2020/07/24/674b96a992fac527a8332ac4adc8…

ln -s(软链接)命令的使用

ln -s /A /B 创建软链接A指向B,Linux的软链接类似于window的快捷方式 当我们需要在不同的目录,用到相同的文件时,我们不需要在每一个需要的目录下都放一个必须相同的文件,我们只要在某个固定的目录,放上该文件,然后在其它的 目录下用ln命令链接(link)它就可以,不必重复…

NFSP

NSFP算法 论文名称:《Deep Reinforcement Learning from Self-Play in Imperfect-Information Games》 这是一篇博弈论和强化学习交叉的文章,网上的资料比较少,但是确实是对手建模的重要算法之一。虽然后面的PSRO算法指出NFSP是PSRO的一个特例,但是个人觉得还是很有学习的必…

车载高性能计算平台HPC2.5

经纬恒润新一代高性能计算平台HPC产品选用TI TDA4及Infineon TC397两款高性能芯片,搭载Linux及RTOS两种操作系统,集成AutoSAR及自研应用框架(AF)两类中间件,可满足复杂运算、高实时等不同应用程序的需求。 高性能计算平台(HPC)是新一代智能汽车的核心技术,是支撑“…

FANUC法那科机器人保养的要点

每一台机器人均不可或缺地需要进行预防性保养,这是确保其于生产线上持续展现最佳性能与实现高度一致性的基石。若忽视了定期对机器人进行预防性保养检查,很可能会导致其零部件遭受损坏或突发故障,进而引发生产效率的减缓,乃至生产线的全面停机。恰当的保养措施,不仅能够显…

redis bind protected-mode

概要redis bind、protected-mode 配置 安装并启动 yum install -y redis systemctl enable --now redis # 使用 redis-server 命令会在前台启动运行,可以跟个 .conf 文件 根据配置文件启动修改配置文件 # 直接编辑配置文件 (本篇文章使用此方法) vi /etc/redis.conf# 同时redis…

看中国版“ADP”如何助力泰森等在华外企应对薪酬管理挑战

“工欲善其事,必先利其器”,用软件实现复杂经营环境下的薪酬管理提效提质,是包括外企在内所有企业释放人力价值、迈向精细化管理的重要手段;也是实现薪酬价值最大化,打造经营韧性、驱动增长的必经之路。调查表明,在全球化的浪潮中,71% 的企业将人力资源相关问题视为国际…

day08 作业

day08 作业 1.使用linux实现命令别名,实现如下效果,思考,如何生成la命令。 [root@yuanlai-0224 ~]# la /var/log/ total 1.9M drwxr-xr-x. 6 root root 4.0K Mar 6 03:33 . drwxr-xr-x. 19 root root 267 Feb 26 03:27 .. drwxr-xr-x. 2 root root 204 Feb 26 03:01 an…