矩阵乘法内核优化CUDA杂谈

矩阵乘法内核优化CUDA杂谈
矩阵乘法内核优化CUDA杂谈
How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: a Worklog
https://siboehm.com/articles/22/CUDA-MMM
在这篇文章中,我将迭代优化用CUDA编写的矩阵乘法的实现。我的目标不是构建cuBLAS的替代品,而是深入了解用于现代深度学习的GPU最重要的性能特征。这包括整合全局内存访问、共享内存缓存和占用优化等。
GPU上的矩阵乘法可能是目前存在的最重要的算法,因为它几乎构成了大型深度学习模型训练和推理过程中的所有FLOP。那么,编写一个高性能的CUDA需要多少工作呢。从头开始?我将从一个简单的内核开始,逐步应用优化,直到我们达到cuBLAS(NVIDIA的官方矩阵库)性能的95%以内(在好的一天):
内核
GFLOPs/s
相对于cuBLAS的性能
1: Naive
309.0
1.3%
2: GMEM Coalescing
1986.5
8.5%
3: SMEM Caching
2980.3
12.8%
4: 1D Blocktiling
8474.7
36.5%
5: 2D Blocktiling
15971.7
68.7%
6: Vectorized Mem Access
18237.3
78.4%
9: Autotuning
19721.0
84.8%
10: Warptiling
21779.3
93.7%
0: cuBLAS
23249.6
100.0%
内核1:朴素的实现
在CUDA编程模型中,计算按三级层次进行排序。每次调用CUDA内核都会创建一个由多个块组成的新网格。每个块最多由1024个单独的线程组成。同一块中的线程可以访问相同的共享内存区域(SMEM)。
块中的线程数可以使用通常称为blockDim的变量进行配置,该变量是一个由三个整数组成的向量。该向量的条目指定了blockDim.x、blockDim.y和blockDim.z的大小,如下所示:
 
同样,网格中的块数也可以使用gridDim变量进行配置。当我们从主机启动一个新内核时,它会创建一个网格,其中包含指定的块和线程。从这里开始,我将只谈论2D网格和块,部分原因是3D结构很少使用,而且3D绘图太难了。重要的是要记住,我们刚才谈到的线程层次结构主要涉及程序的正确性。
对于我们的第一个内核,我们将使用网格、块和线程层次结构在结果矩阵C中为每个线程分配一个唯一的条目。然后,该线程将计算a的相应行和B的相应列的点积,并将结果写入C。由于C的每个位置只由一个线程写入,我们不必进行同步。我们将这样启动内核:
//根据需要创建尽可能多的块来映射所有C
dim3 gridDim(CEIL_DIV(M, 32), CEIL_DIV(N, 32), 1);
//32*32=1024个线程/块
dim3 blockDim(32, 32, 1);
//在设备上启动内核的异步执行
//函数调用在主机上立即返回
sgemm_naive<<<gridDim, blockDim>>>(M, N, K, alpha, A, B, beta, C);
CUDA代码是从单线程的角度编写的。在内核的代码中,我们访问blockIdx和threadIdx内置变量。这些将根据访问它们的线程返回不同的值。
__global__ void sgemm_naive(int M, int N, int K, float alpha, const float *A,
const float *B, float beta, float *C) {
// 计算该线程在C中负责的位置
const uint x = blockIdx.x * blockDim.x + threadIdx.x;
const uint y = blockIdx.y * blockDim.y + threadIdx.y;
 
// 当M或N不是32的倍数时,“if”条件是必要的。
if (x < M && y < N) {
float tmp = 0.0;
for (int i = 0; i < K; ++i) {
tmp += A[x * K + i] * B[i * N + y];
}
// C = α*(A@B)+β*C
C[x * N + y] = alpha * tmp + beta * C[x * N + y];
}
}
要可视化这个简单的内核:
 
这个内核在我的A6000 GPU上处理三个
fp32矩阵大约需要0.5秒。让我们做一些非实现特定的计算:
最快运行时间的下限
对于两个4092²矩阵的矩阵乘法,然后加上一个
矩阵(以制作GEMM):
总FLOPS:
GFLOPS
2*4092³+4092²=137立方英尺
要读取的总数据(最小值!):
 
要存储的总数据:
 
为1TB/s,那么他们谈论的是全局内存的容量和带宽。稍后我们将讨论GPU上的其他内存区域,比如共享内存,它在物理上是不同的,具有非常不同的性能特征。假设它有足够大的缓存。在整个计算过程中,cuBLAS内核总共加载了500MB的GMEM。稍后我们将看到增加算术强度如何使我们实现如此低的访问量。让我们计算一些内核性能的上限。GPU的广告显示,其fp32计算吞吐量为30TFLOP/s,全局内存带宽为768GB/s。如果我们达到了这些数字,提醒一下,峰值FLOPS是一个简化的指标,因为它取决于指令组合。如果你选择的FLOP是DIV,你就不可能达到30TFLOP/s。但是,由于matmul主要使用FMA指令,这往往是最快的FLOP,我们很有可能真正接近峰值FLOP值。带宽的情况类似:只有当访问模式适合硬件时,才能达到峰值带宽。计算需要4.5ms,内存传输需要0.34ms。因此,在我们的餐巾纸数学中,计算所需的时间比内存访问多10倍。
这意味着我们最终优化的内核将受到计算限制,只要我们最终必须传输小于278MB绝对最小内存量的10倍。
现在我们已经计算了fp32 GEMM计算的一些下限,让我们回到手头的内核,找出为什么它比实际速度慢得多。
朴素内核的内存访问模式
在我们的内核中,同一块中具有ThreadIds (0, 0)和(0,1)的两个线程将加载相同的B列,但加载不同的A行。如果我们假设最坏的情况是零缓存,那么每个线程都必须从全局内存中加载2*4092+1个浮点数。由于我们总共有4092²的线程,这将导致548GB的内存流量。
下面是我们朴素内核的内存访问模式的可视化,以两个线程a(红色)和B(绿色)为例:
  
综上所述,当我在A6000 GPU上运行这个内核时,当乘以两个4092x4092 float32矩阵时,它达到了约300GFLOPs。考虑到A6000被宣传为能够实现近30个TFLOP,情况相当糟糕。为了便于比较,300 GFLOP也大致相当于我在之前关于CPU matmul的文章中使用的2015 Haswell CPU上优化的BLAS库所达到的性能。那么,我们如何才能开始加快速度呢?一种方法是优化内核的内存访问模式,以便将全局内存访问合并为更少的访问。
 
 
参考文献链接
https://siboehm.com/articles/22/CUDA-MMM

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/777552.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cocos Creator 3.8.x bundle核心知识点

bundle官网知识文档: https://docs.cocos.com/creator/3.8/manual/zh/asset/bundle.html bundle核心知识点如下:

python-sum()返回所有元素的总和

lb=[10,30,5,40,89,100] i=sum(lb) #返回所有元素的总和 #参数:序列 print(i)

python-max()返回最大值

lb=[10,30,5,40,89,100] i=max(lb) #返回最大值 #参数:序列 print(i)

python-min返回最小值

lb=[10,30,5,40,89,100] i=min(lb) #返回最小值 #参数:序列 print(i)

windows 隐藏桌面了解此图片

1. 桌面上有了解此图片图标无法删除这是因为在windows背景设置中选择了Window聚焦。如果想关闭可以选择其他选项。如果不想关闭Window聚焦还想隐藏桌面了解此图片图标,可以参考下面设置。 2. 打开注册表 win + x打开运行,输入regedit 回车。 3. 新建或修改注册表 在注册表的地…

[vue3] vue3对比vue2优化项简要概述

Vue2存在源码可维护性差、性能问题和API兼容性不足等缺点。Vue3通过monorepo管理、TypeScript开发、性能优化和引入Composition API等方式,显著提升了源码可维护性、编程体验、TypeScript支持和逻辑复用实践,从源码、性能和语法API三方面进行了优化。不足与展望 Vue2的不足源…

DevOps实践

DevOps 一、DevOps介绍 软件开发最开始是由两个团队组成:开发计划由开发团队从头开始设计和整体系统的构建。需要系统不停的迭代更新。 运维团队将开发团队的Code进行测试后部署上线。希望系统稳定安全运行。这看似两个目标不同的团队需要协同完成一个软件的开发。 在开发团队…

高考结束咯,录取结束咯,通知书下来咯,即将开启大学生活咯!

高考结束咯,录取结束咯,通知书下来咯,即将开启大学生活咯!高考结束咯,自我感觉良好,期待着结果出来 结果高考成绩一出来吓我一大跳,657分,比预想中的高了几十分,哈哈哈哈哈哈但是我最关心的人却考砸了,也不知道是不是我的问题(虽然ta比我高),真是逆天!下面是高考…

LeetCode 1557. Minimum Number of Vertices to Reach All Nodes

原题链接在这里:https://leetcode.com/problems/minimum-number-of-vertices-to-reach-all-nodes/description/ 题目: Given a directed acyclic graph, with n vertices numbered from 0 to n-1, and an array edges where edges[i] = [fromi, toi] represents a directed e…

腾讯的cherry-markdown如何在vue项目中自定义视频播放器?【引入自定义组件版,非普通html】

调研好久没给维护的社区增加新内容了,想到社区的播放器还是浏览器原生的,看着挺丑的,因此我打算给社区的cherry-markdown渲染的markdown文章里的视频样式给改改。首先为了让事情不复杂化,我打算引入西瓜视频播放器(https://h5player.bytedance.com ),它支持的功能挺多的,…

腾讯的cherry-markdown如何在vue项目中自定义视频播放器?

调研好久没给维护的社区增加新内容了,想到社区的播放器还是浏览器原生的,看着挺丑的,因此我打算给社区的cherry-markdown渲染的markdown文章里的视频样式给改改。首先为了让事情不复杂化,我打算引入西瓜视频播放器(https://h5player.bytedance.com ),它支持的功能挺多的,…