P2P DMA并不是所有场景都会有性能提升

P2P (Peer-to-Peer) DMA技术理论上可以带来性能提升,特别是在特定的工作负载和场景下。例如,当两个高速设备(如GPU与NVMe SSD)需要频繁进行大量数据交换时,通过P2P DMA,数据可以直接在设备间传输,无需经过CPU中转,这样可以减少数据在系统内存中的多次复制以及CPU上下文切换带来的开销,从而提高整体的数据传输效率和系统的吞吐量。

然而,并非所有情况下使用P2P DMA都会带来性能提升。以下几种情况可能会导致P2P DMA并不一定优于传统的CPU中转方式:

  1. 数据已经在页缓存中:对于已经存在于CPU页缓存中的数据,如果直接由CPU读取并发送至其他设备,由于不需要从存储介质再次读取,实际速度可能比P2P DMA更快,因为P2P DMA绕过了页缓存的优化机制。

此时,对于CPU中转I/O方式,首先通过pread()函数将数据读入CPU缓冲区,然后通过cudaMemcpy()将缓冲区内容复制到GPU。

这个性能差距的原因在于操作系统中的预读机制。该机制能透明地优化CPU中转I/O,而p2p则完全绕过了这一机制。操作系统会异步预取文件内容到页缓存中,使得从磁盘读取和CPU-GPU数据传输过程重叠进行。预取器逐步增加预取数据请求的大小,直至默认最大值512KB,从而实现了远高于p2p的SSD有效带宽,因为p2p执行的是短读操作。

对于复杂工作负载,当文件内容被缓存在页缓存中时(这在多个合作应用程序构成的复杂软件系统中经常发生),p2p仅在访问持久存储中的文件时效率较高,但其性能明显低于CPU中转I/O。

然而,由于页缓存的内容随工作负载动态变化,程序员在选择文件传输机制时没有绝对的最佳方案。例如,设想一个中央日志服务器接收来自其他机器通过网络发送的日志,并将其存储在本地。作为另一个应用运行的日志扫描器可能稍后分析这些日志来检测可疑事件。在这种流式工作负载场景下,使用p2p似乎是一个可行的选择。但如果扫描器在文件更新后立即调用,文件内容可能仍然保留在页缓存中,此时使用p2p会导致系统吞吐量降低

  1. 短小、零散的I/O操作:对于非常短小或随机的I/O请求,OS预读和写后处理等机制能够对CPU中转模式提供优化,而P2P DMA则可能由于每次DMA传输都需要额外的设置和管理开销,反而无法充分利用其优势。
  2. 硬件限制和兼容性问题:并非所有的PCIe设备都支持P2P DMA,且不同厂商之间的设备之间可能存在兼容性问题,这可能导致在启用P2P DMA时需要更多的驱动层复杂性和潜在的性能损失。
  3. 软件栈复杂性:采用P2P DMA时,应用程序和驱动程序必须正确地管理和配置DMA传输,包括地址映射、权限控制等,这些复杂度可能会抵消掉部分性能优势。

因此,是否采用P2P DMA应根据具体的应用场景和工作负载来决定,而非一概认为P2P DMA一定能带来性能提升。在实际应用中,要综合考虑硬件特性、操作系统行为、软件设计等因素,才能确保P2P DMA能发挥出应有的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/419527.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Three.js 学习笔记之模型(学习中1.20更新) | 组 - 模型 - 几何体 - 材质

文章目录 模型 几何体 材质层级模型组- THREE.Group递归遍历模型树结构object3D.traverse() 模型点模型Points - 用于显示点线模型Line | LineLoop | LineSegments网格模型mesh - 三角形网格模型独有的属性与方法 几何体BufferGeometry缓冲类型几何体BufferGeometry - 基类创…

Servlet系列:两种创建方式(xml,注解)

一、使用web.xml的方式配置(Servlet2.5之前使用) 在早期版本的Java EE中,可以使用XML配置文件来定义Servlet。在web.xml文件中,可以定义Servlet的名称、类名、初始化参数等。然后,在Java代码中实现Servlet接口&#x…

中国电子学会2022年6月份青少年软件编程Scratch图形化等级考试试卷一级真题

一、单选题(共25题,共50分) 1.广场中有声控喷泉,当声音的音量大于60的时候,喷泉就会喷出水,现在的音量为30,下列哪个选项可以让喷泉喷出水?(2分) A. B. C. D. 答案解析&#x…

接口测试 02 -- JMeter入门到实战

前言 JM eter毕竟是做压测的工具,自动化这块还是有缺陷。 如果公司做一些简单的接口自动化,可以考虑使用JMeter快速完成,如果想做完善的接口自动化体系,建议还是基于Python来做。 为什么学习接口测试要先从JMeter开始?…

BaiJiaCms 漏洞挖掘

今天来和大家讲一下baijiacms的漏洞挖掘,小编一般都是黑盒测试,没有对其代码审计,(等小编把常见的漏洞都了解一下在进行代码审计) 1.存储型XSS 首先需要进入管理员账号 找到一个“调用第三方统计代码”的方框&#xf…

Unity中URP下的SimpleLit的 Lambert漫反射计算

文章目录 前言一、Lambert漫反射计算11、MixRealtimeAndBakedGI 函数有三个重载2、3号 调用了 2号3、1号调用了 SubtractDirectMainLightFromLightmap函数4、我们重点来看 Lambert漫反射的实现部分5、其余部分 二、Lambert漫反射计算21、LightingLambert 前言 在之前的文章中&…

操作系统-系统调用(定义 与库函数的区别 为什么需要系统调用 分类 过程)

文章目录 总览什么是系统调用系统调用与库函数的区别小例子:为什么系统调用是必须的系统调用分类系统调用的过程小结 总览 什么是系统调用 操作系统给用户提供的向上接口就是GUI,程序接口是系统调用组成 类似函数,但有区别 系统调用与库函…

每天都美好的一天

每天我们都会遇到不同的事情,开心的、愤怒的、悲伤的等等,今天过完明天我们还得继续,所以一切又显得不那么重要。一天中如果有不开心的事情发生会影响我们当天很长一段时间,甚至未来几天。 今天所做之事都是自己明天的基础&#…

Mybatis原理 - 标签解析

很多开源框架之所以能够流行起来,是因为它们解决了领域内的一些通用问题。但在实际使用这些开源框架的时候,我们都是要解决通用问题中的一个特例问题,所以这时我们就需要使用一种方式来控制开源框架的行为,这就是开源框架提供各种…

3岁男童不慎从6楼坠落,命悬一线!路人大哥路过冲上前徒手接人!

惊心动魄的时刻,一个男孩从6楼窗户坠落,命悬一线!但幸运的是,一位路过的男子挺身而出,徒手接住了孩子。让我们一起回顾一下这个英勇的瞬间! 1月19日,福建南平市浦城县,一个平静的午后…

Addressables(1) 从安装到加载单个/多个资源

不想再配改那些狗屎路径,准备研究一下Adressable,据说可以用key加载指定的资源 刚安装下来,随便搞了个资源勾选了一下addressable的框框,多了好多东西啊 概念铺天盖地而来,ok 没事的 慢慢来! 前置知识 P…

【面试】java并发编程面试题

java并发编程面试题 何为进程?何为线程?JVM拓展为什么程序计数器、虚拟机栈和本地方法栈是线程私有的呢?为什么堆和方法区是线程共享的呢虚拟机栈和本地方法栈为什么是私有的?一句话简单了解堆和方法区单核 CPU 上运行多个线程效率一定会高吗?创建线程…