高性能计算-探究GPU延迟隐藏(26)-编程知识

高性能计算-探究GPU延迟隐藏(26)

news/2025/3/12 23:27:00/文章来源:https://www.cnblogs.com/anluo8/p/18756814

1. 延迟隐藏作用：可以最大化线程束的使用效率，提高计算性能

2. 延迟隐藏概念

（1）指令延迟是指令发出到完成之间的时钟周期间隔；
（2）指令可以分为两种：算数指令和访存指令。

3. 算数指令延迟隐藏实现

（1）假如一个算数指令的指令延迟是 4 个时钟周期
（2）查询cuda文档得到如下计算能力的设备，比如9.0的设备每个时钟周期对 float16 加法的操作次数为256
（3）计算所需线程束数量为：256*4/32 = 32个线程束，所以当有 >= 32 个线程束有条件执行供线程调度器调度的时候，SP的利用率最大，因为GPU线程切换是零开销的，所以可以实现计算延迟隐藏。

（4）同理访存延迟也可以通过增加可调度的访存线程束来隐藏访存延时，如下。

4. 访存指令延时隐藏实现

（1）假如访存延时为600个时钟周期，GPU内存频率为 21GHz，显存带宽为 280G/S，每个线程需要读取一个 float64 数据。
（2）每个时钟周期理论最大访存数据量为：280 / 21 ≈ 13B/clock
（3）隐藏延时期间数据吞吐量应为 600 * 13 = 7800B
（4）所需要的线程数量为 7800 / 8 = 975个
（5）所需要的线程束数量为 975 / 32 = 31个
所以，当满足线程束的数量 >= 31时，可以隐藏访存的延时。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/897934.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！