DeepSeek开源DeepGEMM：有哪些技术亮点？-编程知识

DeepSeek开源DeepGEMM：有哪些技术亮点？

news/2025/3/1 11:20:39/文章来源:https://www.cnblogs.com/java-ye/p/18738823

近日，DeepSeek再次凭借开源举措惊艳众人，其发布的DeepGEMM，一款开源的FP8通用矩阵乘法库，为AI算力提升开辟了新路径。这已经是他们开源周的第三个项目，前两个是FlashMLA和DeepEP，各有千秋，但DeepGEMM，在我看来，才是真正捅破窗户纸的那一个。

本文将深入剖析DeepGEMM的技术亮点、创新思路以及它对AI行业的深远影响。

更多好文请关注我的博客：https://www.panziye.com/

DeepGEMM：打破AI算力“天花板”的利器

以往，大家普遍认为提升AI算力主要依赖硬件升级，面对英伟达GPU缓慢的升级节奏，众多开发者和企业也只能无奈接受。但DeepSeek推出的DeepGEMM却打破了这一固有认知，它证明了软件在挖掘算力潜力方面同样大有可为。

DeepGEMM的核心代码仅有300行，与动辄几十万行代码的CUDA库相比，简直是“小巫见大巫”。然而，其性能表现却令人惊叹。根据官方数据，在Hopper GPU上，它的FP8算力能达到1350+ TFLOPS，在某些场景下，甚至比经过专家调优的CUTLASS还要快2.7倍。这意味着用更少的代码实现了更强的性能，堪称一场效率革命。

DeepGEMM的技术“秘籍”

（一）极致“抠门”，挖掘硬件潜能

DeepGEMM的设计理念可以用“极致抠门”来形容，它致力于挖掘硬件的每一丝潜能，去除每一行代码的冗余，降低每一分钱的训练成本。

其中，FP8八位浮点格式是其一大“法宝”。FP8虽然精度相对较低，但它的优势在于运算速度快，还能节省显存，这对于大规模的AI训练至关重要。DeepSeek V3能够将训练成本压低至557万美元，FP8功不可没。不过，FP8精度低的问题也很明显，计算次数多了容易出现错误。DeepGEMM采用了两级累加的方法来解决这一难题：利用张量核心进行FP8计算，再通过CUDA核心以FP32格式进行累加，从而有效提升了计算精度，这种方法简单直接却十分有效。

（二）JIT编译：“量体裁衣”式的优化

JIT即时编译技术也是DeepGEMM的一大亮点。传统的计算库通常是预先编译好的，虽然通用性强，但在优化方面存在不足。DeepGEMM则反其道而行之，采用运行时编译的方式。它会根据矩阵的形状以及硬件环境，为每一次计算“量身定制”内核，就好比裁缝根据每个人的身材制作合身的衣服。在小矩阵场景下，这种优化方式带来的性能提升最高可达2.7倍，充分展现了JIT编译的优势，也为未来的计算库优化指明了方向。