节点级架构与MI300和MI200系列性能计数器和指标

节点级架构
MI300系列节点级架构,显示了8个完全互连的MI300X OAM模块,通过重定时器和HGX连接器连接到(可选)PCIEe交换机。
如图5-9所示,显示了具有双插槽配置的AMD EPYC处理器和八个AMD Instinct MI300X加速器的系统的节点级架构。MI300X OAM通过PCIe Gen 5 x16链路(黄线)连接到主机系统。GPU使用七个高带宽、低延迟的AMD Infinity Fabric™链路(红线)形成一个完全连接的8-GPU系统。
图5-9双插槽AMD EPYC处理器和8个AMD Instinct MI300X加速器的节点级架构
5.2.2 MI300和MI200系列性能计数器和指标
列出并描述了可用于AMD Instinct™MI300和MI200 GPU的硬件性能计数器和衍生指标。还可以使用ROCProfiler工具访问此信息。
MI300和MI200系列性能计数器包括以下类别:
1)命令处理器计数器
2)图形寄存器总线管理器计数器
3)着色器处理器输入计数器
4)计算单位计数器
5)L1指令缓存(L1i)和标量L1数据缓存(L1d)计数器
6)向量L1缓存子系统计数器
7)L2缓存访问计数器
以下部分提供了每个类别的其他详细信息。
所有MI300和MI200系列性能计数器的初步验证正在进行中。带星号(*)的需要进一步评估。
1. 命令处理器计数器
命令处理器计数器进一步分为命令处理器提取器和命令处理器计算。
2. 命令处理器提取器计数器
命令处理器提取器计数器定义,见表5-2。
表5-2 命令处理器提取器计数器定义

硬件计数器

单位

定义

CPF_​CMP_​UTCL1_​STALL_​ON_​TRANSLATION

周期

一个计算统一翻译缓存(L1)在等待翻译时停滞的周期数

CPF_​CPF_​STAT_​BUSY

周期

命令处理器提取器正忙的周期数

CPF_​CPF_​STAT_​IDLE

周期

命令处理器提取器空闲的周期数

CPF_​CPF_​STAT_​STALL

周期

命令处理器提取器停止的周期数

CPF_​CPF_​TCIU_​BUSY

周期

命令处理器提取器纹理缓存接口单元接口繁忙的周期数

CPF_​CPF_​TCIU_​IDLE

周期

命令处理器提取器纹理缓存接口单元接口空闲的周期数

CPF_​CPF_​TCIU_​STALL

周期

命令处理器提取器纹理缓存接口单元接口在等待空闲标签时停滞的周期数

纹理缓存接口单元是命令处理器和存储系统之间的接口。
3. 命令处理器计算计数器
命令处理器提取器计数器定义,见表5-3。
表5-3 命令处理器提取器计数器定义
表5-3 命令处理器提取器计数器定义

命令处理器计算计数器

单位

定义

CPC_ME1_BUSY_FOR_PACKET_DECODE

周期

命令处理器计算微引擎正忙于解码数据包的周期数

CPC_UTCL1_STALL_ON_TRANSLATION

周期

一个统一翻译缓存(L1)暂停等待翻译的周期数

CPC_CPC_STAT_BUSY

周期

命令处理器计算繁忙的周期数

CPC_CPC_STAT_IDLE

周期

命令处理器计算处于空闲状态的周期数

CPC_CPC_STAT_STALL

周期

命令处理器计算停滞的周期数

CPC_CPC_TCIU_BUSY

周期

命令处理器计算纹理缓存接口单元接口繁忙的周期数

CPC_CPC_TCIU_IDLE

周期

命令处理器计算纹理缓存接口单元接口空闲的周期数

CPC_CPC_UTCL2IU_BUSY

周期

命令处理器计算统一翻译缓存(L2)接口繁忙的周期数

CPC_CPC_UTCL2IU_IDLE

周期

命令处理器计算统一翻译缓存(L2)接口空闲的周期数

CPC_CPC_UTCL2IU_STALL

周期

命令处理器计算统一翻译缓存(L2)接口停滞的周期数

CPC_ME1_DC0_SPI_BUSY

周期

命令处理器计算微引擎处理器正忙的周期数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/904039.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推荐专著《AI芯片开发核心技术详解》(1)、《智能汽车传感器:原理设计应用》(2)、《TVM编译器原理与实践》(3)、《LLVM编译器原理与实践》(4)

4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该…

GPU到GPU通信选项

GPU到GPU通信选项 将讨论使用AMD Instinct™MI250和AMD InstinctTM MI250X GPU的系统中的GPU到GPU通信选项。每个MI250(X)GPU由两个图形计算芯片(GCD)组成。如图4-20所示,显示了具有4个MI250 GPU(8个GCD)的节点的示意图。每个绿色框代表一个MI250 GPU和两个GCD。GCD通过…

2025年3月月记

2025.3.1 新的一月到来啦!今天干了个啥呢?好像没干啥也是把昨天编程学习的作业做了,待会又要去学S组的知识了,我先去刷题了。。。 OK啊,也是把课学完了,待会我又要去打atcoder了,今天学的是差分约束,其实就是图上的知识,主要的表达形式是:u <= v + w或者u >= v…

Linux版本的MAT(Eclipse Memory Analyzer)内存分析工具使用

首先先下载对应平台的工具 官方地址:https://eclipse.dev/mat/download/ 因为我是arm的架构 所以下载的是arm64的安装包 下载完成后解压 得到以下内容 先修改初始化的启动的内存大小 vim MemoryAnalyzer.ini 主要修改这个值 这个要尽量大点 不然我们的内存分析文件很大 会执行…

【CodeForces训练记录】Codeforces Round 1011 (Div. 2)

训练情况赛后反思 B题因为分讨的问题WA了一发,异或还是不大会做 A题 猜猜题,显然对于字符串全部都是一个字母的,无论怎么换字典序都不可能更小,对于其他情况因为可以选择两个字母互换,我们容易观察到对于某一个字符串一定存在一种换法能让字典序更小(无非就是换头或者换尾…

集美大学课程实验报告-实验3:栈、队列与递归

集美大学课程实验报告-实验3:栈、队列与递归项目名称 内容课程名称 数据结构班级 网安2413指导教师 郑如滨学生姓名 林沁茹学号 202421336067实验项目名称 实验3:栈、队列与递归上机实践日期上机实践时间 2学时一、目的(本次实验所涉及并要求掌握的知识点) 以下内容请根据实…

2025-03-22 闲话

2025-03-22 闲话有些闲话是纪实的,它们可能只是平淡的文字。它们可能没有感受,不带思考。你看不到装饰,只有琐碎、补也补不到自圆其说的细节。柴米油盐大抵是这样的。 来北京独居后的生活着实安逸。每天执行一个蛮正常的作息,保证三顿饮食、偶尔晚上和网友去搓搓夜宵。睡觉…

3.22 三重积分计算方法

三重积分的实际意义:计算一个立体的质量(可以) 1 投影法(先一后二)(一个土豆切成土豆丝,最后再累加Dxy平面) 一个立体图形可以看成是两个曲面拼接而成,z=(x,y)可表示一个曲面假设x和y都是确定的,然后就累加z,最后再算面积分 先假设有一条竖线,注意竖线是从哪里进入…

15.数组

数组C 语言支持数组数据结构,它可以存储一个固定大小的相同类型元素的顺序集合。 数组是用来存储一系列数据,但它往往被认为是一系列相同类型的变量。数组中的特定元素可以通过索引访问,第一个索引值为 0。声明数组在 C 中要声明一个数组,需要指定元素的类型和元素的数量 下…

逆向中简单的shellcode

做题时遇到了,简单记录一下 一,介绍: shellcode分为广义和狭义,狭义指的仅仅是通过命令行shell攻击靶机,并取得控制权的代码,广义的指能完成类似任务的代码,通常是汇编/机器码。 不过这里是RE,不是PWN,所以不会有靶机,那么在下文指的是广义的shellcode,注入程序,控…

linux一些好用命令:w,fuer,getfacl,usermod,chmod

一.命令 w w 是显示用户登录时间、空闲时间、当前执行的命令等。 2.示例 pst/* : 这是ssh登录 tty: 这是直接本地登录(ctrl+alt +F* 都可以) 这个是没本地登录显示的进程 二. 命令 fuser fuser 是一个可以查看使用此文件的进程号。 1.一般使用 fuser -a /path/to/filename…

Aligning the Objective of LLM-based Program Repair 论文笔记

介绍 (1) 发表 2025-02 ICSE24 (2) 挑战当前方法的推理目标与 LLM 的训练目标没有对齐。现有 LLM-based 方法通常采用 MLM 的方式预测修复代码(然而尽管模型参数被增大百倍但修复结果甚至没有翻一番,这与其他任务的明确可伸缩性形成对比)。因此本文假设在训练中 <masked,…