深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销

news/2024/11/20 8:32:03/文章来源:https://www.cnblogs.com/huaweiyun/p/18346518
摘要:Host调度模式下,GE将模型中算子的执行单元划分为Host CPU执行与Device(昇腾AI处理器)执行两大类。

本文分享自华为云社区《深度解读昇腾CANN小shape算子计算优化技术,进一步减少调度开销》,作者:昇腾CANN。

GE(Graph Engine)将模型的调度分为Host调度与下沉调度两种模式。经过上期的介绍我们知道,在模型为静态shape时,由于其输入tensor shape固定不变,在编译时就能确定所有算子的输入输出shape,并能提前完成模型级内存编排、tiling计算等Host调度工作,因此采用模型下沉调度方式可以将整个模型下沉到Device侧执行,从而提升模型调度性能。

与之对应的,在模型为动态shape的情况下,由于输入tensor shape不确定,需要在上一个算子完成shape推导后,才能确定下一个算子的输入shape等信息,因此无法将整个模型下沉执行,只能采用Host调度模式。

1 Host调度简介及优化背景

所谓Host调度,是指模型的调度主体位于Host CPU,由CPU完成逐算子调度。一个算子的调度任务为kernel执行准备必要参数,通常包含shape推导、tiling、内存分配、launch等。

Host调度模式下,GE将模型中算子的执行单元划分为Host CPU执行与Device(昇腾AI处理器)执行两大类。对于卷积、MatMul等对算力要求高的算子,会被划分到Device执行;而由于shape信息在Host CPU维护,Shape、Reshape等算子更适合被划分到Host CPU执行;除此之外,还有一些算子,在shape较小时,计算量也很小,调度开销往往大于算子的实际计算开销,就需要考虑如何尽可能减少调度开销带来的性能影响。

图1 网络拓扑片段

图1是一段网络拓扑片段示例,按照一般的调度机制,Gather、Concat算子会下沉到Device侧计算,Shape、Unsqueeze、Reshape算子在Host侧计算。其执行时序如图2所示,模型E2E执行耗时除了包含算子计算的时间外,还包含Host与Device之间的数据拷贝、算子下沉调度、Stream同步等开销,整体执行E2E耗时在毫秒级别。

图2 优化前执行时序

而对于小shape(如shape size小于8)的Gather、Concat,算子本身在Host侧CPU的计算开销上仅微秒级别,与Device侧计算的性能相差无几。此时下发带来的额外开销就显得比较明显。针对上述这种shape较小且输入Tensor内存在Host的场景,GE识别将这部分算子保留在Host侧执行,可有效减少调度开销带来的性能影响。

2 小shape算子计算优化实现

在图编译流程执行到引擎选择之后,GE选择在Host侧执行的算子并将其作为锚点,然后向后递归查找计算数据个数小于8的算子,并将这些算子的执行引擎修改为Host CPU。针对图1所示的网络片段,假设shape算子的输出的shape size小于8,则Gather、Concat算子的执行引擎都会被刷新成Host CPU。优化后执行时序如图3所示,此时模型执行只有算子计算带来的开销,经测试约为10微秒(3ms –> 10us),显著的提高了E2E执行性能。

图3 优化前后执行前后时序对比

3 优化效果

以LLaMA2大语言推理模型为例,符合上述执行引擎刷新的算子有Pack、Gather、Concat等约650+个,刷新前模型E2E耗时约1.062S,刷新后执行时间优化到了1.009S,吞吐提升5%。

4 更多介绍

GE小shape算子计算优化技术的相关介绍就到这里,欢迎大家关注后续技术分享。如需获取更多学习资源请登录昇腾社区。

 

点击关注,第一时间了解华为云新鲜技术~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/779147.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

正运动控制

一、IP设置1.以太网IP设置:要和板卡IP在同一个IP段 2.注意:不能和板卡IP相同,不然会冲突 3.查询板卡IP是否存在,通过cmd输入:ping ip注意:电脑和板卡连接不上,可能是板卡和电脑不在同一个IP段,或者没有扫描找到运控板卡IP电脑设置 控制面板 >> 更改适配器设置以太…

windows操作系统通过nvm安装pm2,并解决不是内部或外部命令的解决方案

在Windows环境中安装nvm(Node Version Manager,Node版本管理器)的步骤如下: 一、下载nvm访问nvm的GitHub发布页面:前往nvm-windows的GitHub发布页面下载最新版本的nvm安装包。https://github.com/coreybutler/nvm-windows/releases下载nvm安装包:在发布页面中找到适合您系…

MySQL UDF 提权初探

MySQL UDF 提权初探 对 MySQL UDF 提权做一次探究,什么情况下可以提权,提取的主机权限是否跟mysqld进程启动的主机账号有关 数据库信息 MySQL数据库版本:5.7.21 UDF UDF:(User Defined Function) 用户自定义函数,MySQL数据库的初衷是用于方便用户进行自定义函数,方便查询一…

特殊字符,十六进制 0xa0导致的搜索问题

导致后端在处理的时候出现一些错误本文来自博客园,作者:chuangzhou,转载请注明原文链接:https://www.cnblogs.com/czzz/p/18346469

电路基础知识——常见晶振电路

电路基础知识——常见晶振电路 本文介绍了有源和无源晶振的特性,包括精度、稳定性、引脚配置以及晶振的选型参数,如工作电压、输出电平、频率精度等。此外,还讨论了晶振的类型,如SPXO、VCXO和TCXO,以及PCB设计中应注意的事项,如负载电容和热传导的影响。 有源晶振 有源晶…

后端开发学习敏捷需求--专题的目标与价值成效

专题的目标与价值成效 什么是专题公司或企业为了抓住业务机会或者解决痛点问题,而采取的具体的行动和举措专题的目标分析 1.业务调研了解目标的预期 利用5W2H来进行专题分析what——是什么?目的是什么?作什么工作?专题是什么 专题产生的背景是什么 专题的目标是什么,要达到…

大数据超全面入门干货知识,看这一篇就够了!

随着科技的飞速发展和互联网的普及,大数据已成为 21 世纪最炙手可热的话题之一。它像一面神秘的面纱,覆盖着现实世界,隐藏着无穷无尽的可能性。今天将带领大家一起揭开大数据这个未知世界的神秘面纱,带你了解大数据的概念、应用以及大数据相关组件。 一、什么是大数据大数据…

USB基础知识总结

USB基础知识总结 USB基本概念介绍 USB (Universal Serial Bus,通用串行总线)是1995年英特尔和微软等公司联合倡导发起的一种新的** PC 串行通信协议。它基于通用连接技术,实现外设的简单快速连接,达到方便用户、降低成本、扩展 PC 连接外设范围的目的。其最大特点是支持热插…

es6-string-html vscode插件 js里面template的高亮插件 无构建vue使用

es6-string-html vscode插件 js里面template的高亮插件 无构建vue使用 这个插件可以让js里面的template的字符串高亮,前面加 /*html*/Refference: 无构建和打包,浏览器直接吃上Vue全家桶? https://juejin.cn/post/7399094428343959552-------------------------------------…

mesh组网

转自Wi-Fi mesh技术介绍 (qq.com) 什么是FTTR FTTR是光纤到房间(Fiber to The Room)的缩写 十兆时代,光纤到楼,FTTB(Fiber to The Building) 百兆时代,光纤到户,FTTH(Fiber to The Home) 千兆时代,光纤到房间,FTTR(Fiber to The Room) FTTR是千兆时代家庭网络的…

js拖动调整元素宽度

dom结构,一个盒子中包含左中右是三个元素,resize为拖动元素,左侧固定宽度,右侧元素flex:1 css部分,拖动元素的样式,左右两边按实际情况修改 js部分:const handleResize = (leftMinWidth = 0, rightMinWidth = 200) => { const leftDom = document.getElementById(…