AMD Instinct™MI300系列微架构-编程知识

AMD Instinct™MI300系列微架构

news/2025/3/24 10:21:57/文章来源:https://www.cnblogs.com/wujianming-110117/p/18787439

AMD Instinct™MI300系列微架构

AMD Instinct MI300系列加速器基于AMD CDNA 3架构，旨在为HPC、人工智能（AI）和机器学习（ML）工作负载提供领先性能。AMD Instinct MI300系列加速器非常适合极端的可扩展性和计算性能，可以在单个服务器到世界上最大的EB级超级计算机的所有设备上运行。

在MI300系列中，AMD推出了加速器复杂芯片（XCD），其中包含处理器的GPU计算元素以及较低级别的缓存层次结构。

描述了AMD Instinct MI300加速器系列中单个XCD的结构，如图5-7所示。

图5-7 torch.compile可以将Llama 模型的吞吐量提高多达 2.6 倍

XCD级系统架构显示了40个计算单元，每个计算单元具有32KB的L1缓存，一个具有4个ACE计算加速器的统一计算系统，共享4MB的L2缓存和一个HWS硬件调度器。

在XCD上，四个异步计算引擎（ACE）将计算着色器工作组发送到计算单元（CU）。XCD有40个CU：38个处于聚合级别的活动CU和2个用于产量管理的禁用CU。CU都共享一个4 MB的L2缓存，用于合并芯片的所有内存流量。AMD CDNA™3 XCD芯片的CU不到AMD Instinct MI200系列计算芯片的一半，是一个较小的构建块。然而，它使用了更先进的封装，处理器可以包括6或8个XCD，最多可容纳304个CU，大约比MI250X多40%。

MI300系列使用AMD Infinity Fabric™技术作为互连，集成了多达8个垂直堆叠的XCD、8个高带宽存储器3（HBM3）堆叠和4个I/O管芯（包含系统基础设施）。

CDNA 3 CU内的Matrix Core有了重大改进，强调了人工智能和机器学习，提高了现有数据类型的吞吐量，同时增加了对新数据类型的支持。CDNA 2矩阵核支持FP16和BF16，同时提供INT8用于推理。与MI250X加速器相比，CDNA 3矩阵核的性能是FP16和BF16的三倍，同时为INT8提供了6.8倍的性能增益。与FP32相比，FP8的性能增益为16倍，而TF32的性能增益是FP32的4倍。

MI300X针对不同数据类型的峰值性能，见表5-1。

表5-1 MI300X针对不同数据类型的峰值性能

计算与数据类型	FLOPS/CLOCK/CU	峰值TFLOPS
矩阵FP64	256	163.4
向量FP64	128	81.7
矩阵FP32	256	163.4
向量FP32	256	163.4
向量TF32	1024	653.7
矩阵FP16	2048	1307.4
矩阵BF16	2048	1307.4
矩阵FP8	4096	2614.9
矩阵INT8	4096	2614.9

表5-1总结了AMD Instinct MI300X开放计算平台（OCP）和开放加速器模块（OAM），针对不同数据类型和命令处理器的聚合峰值性能。如果在每个时钟周期中提交SIMD（或矩阵）指令，中间列列出了单个计算单元的峰值性能（在单个指令中处理的数据元素的数量）。第三列列出了OAM的理论峰值性能。GPU的理论聚合峰值内存带宽为每秒5.3 TB。

显示了APU（左）和OAM包（右）的框图，两者都通过AMD Infinity Fabric™网络在片上连接，如图5-8所示。