AI 引擎系列 8 - 运行时比率参数简介

简介

 Versal AI 引擎 2 一文 中,我们注意到计算图 (graph) 文件中有一行内容用于为每个内核实例定义运行时比率参数。

在本文中,我们将讲解该参数如何影响 AI 引擎应用的资源使用率和性能。

 


要求

下文要求您通读前几篇 AI 引擎系列博文。

AI 引擎系列 1 - 从 AI 引擎工具开始(2022.1 更新)

AI 引擎系列 2 - AI 引擎计算图简介 (2022.1 更新)

AI 引擎系列 3 - AI 引擎内核简介

AI 引擎系列 4 - 首次运行 AI 引擎编译器和 x86simulator(2022.1 更新)

AI 引擎系列 5 - 以 AI 引擎模型为目标运行 AI 引擎编译器(2022.1 更新)

AI 引擎系列 6 - 在 Vitis 分析器中分析 AI 引擎编译结果(2022.1 更新)

AI 引擎系列 7 - 在仿真内通过追踪来可视化 AI 引擎事件(2022.1 更新)

 


什么是运行时比率?

“Run-Time Ratio"(运行时比率)是值介于 0 1 之间的参数,您应该为计算图中的所有内核定义该参数。它以百分比值的方式来定义该内核所需的单一 AI 引擎核的处理时间。

例如,运行时值为 0.5 表示内核只需 1 AI 引擎核的处理时间的 50%

根据内核的运行时比率,可将单个或多个内核映射到单个 AI 引擎。


计算任一内核的运行时比率

任一内核的运行时比率均可使用如下公式来计算:

运行时比率 = (内核运行一轮的周期数)/(周期预算)

周期预算是每个内核耗用来自其输入的数据(处理速率受限的输入数据串流时)或者在其输出上生成数据块(处理速率受限的输出数据串流时)所耗用的指令周期数。

它按如下公式来定义:

周期预算 = 块大小 * (AI 引擎时钟频率/采样频率)

假设某个内核处理窗口为 128 个样本,且输入样本频率(例如,来自 ADC)为 245.76 MHz。则此周期预算为 128*(1000/245.76) = 520 个周期。

这意味着,如果 AI 引擎阵列运行频率为 1 GHz,那么内核执行周期数需小于 520 AI 引擎时钟周期(因为在 520 个时钟周期后,下一个输入窗口将就绪)。

我们将在后续博文中详解如何估算内核运行一轮的周期数。


运行时比率对于性能或资源使用率的影响

 

现在我们使用先前博文中创建的应用示例来分析下更改运行时比率值的影响。

 Versal AI 引擎 2 一文中,针对计算图中的 2 个内核设置的运行时比率为 0.1。在 Versal AI 引擎 6 一文中,Vitis 分析器中的 2 个内核已映射到同一个拼块 (tile [25,0]) 内,因此这 2 个内核共享来自位于该拼块上的核的处理时间。

由于这 2 个内核在同一个核上运行,因此不同时执行(按顺序运行),故而改为在这 2 个内核之间例化单个缓冲器。

最后,在 Versal AI 引擎系列 5 中,仿真输出中计算图的首次迭代的最后一个样本(以 TLAST 来标记)在 714 ns 之后输出,并且第二次迭代的首个样本在仿真时间 1197 ns 后输出。

首先,我们将 2 个内核的运行时比率改为 0.4,并分析计算图所受到的影响。

打开源文件 project.h,在第 26/27 行上,将名为 first second 2 个内核的运行时比率改为 0.4

runtime<ratio>(first) = 0.4;
runtime<ratio>(second) = 0.4;

Emulation-AIE 为目标构建 Simple_application,并选择“Run As > Emulation-AIE”(运行方式 > AI 引擎仿真)来运行 aiesimulator

Vitis 分析器中打开编译汇总 (Emulation-AIE/Work/project.aiecompile_summary)。观察计算图视图,将该视图设置为按拼块分组。

可以看到,更改运行时比率对于资源使用率并无影响。这 2 个内核仍位于相同拼块内并且在相同核上运行,两者仍通过单一缓冲器来进行通信。

由于运行时比率之和仍小于 1,因此 aiecompiler 仍判定将这 2 个内核分组在一起。

您打开仿真输出文件 (Emulation-AIE/aiesimulator_output/output.txt) 即可看到计算图的首次迭代的最后一个样本仍在 714 ns 之后输出,第二次迭代的第一个样本仍在仿真时间的 1197 ns 之后输出。

请务必注意,运行时比率不用于调度内核执行。

数据可用后如果核尚未运行另一个内核,就会立即启动该内核。即使内核的运行时比率设为 0.1,该内核的运行时间仍可能占用 AI 引擎核的 100%(假定只有 1 个内核映射到该核)。在我们的示例中,由于有 2 个内核运行相同函数,因此当运行时比率设为 0.1 0.4 时,这 2 个内核的运行时间可能占 50%

现在,我们可以尝试将这 2 个内核的运行时比率增大到 0.6

 

runtime<ratio>(first) = 0.6;

runtime<ratio>(second) = 0.6;

 

Emulation-AIE 为目标构建 Simple_application,并选择“Run As > Emulation-AIE”(运行方式 > AI 引擎仿真)来运行 aiesimulator

Vitis 分析器中打开编译汇总 (Emulation-AIE/Work/project.aiecompile_summary)

观察计算图视图可见,使用率已发生更改:

每个内核都映射到不同拼块。

名为 first 的内核在 tile [25,0] 上运行,名为 second 的内核在 tile [24,0] 上运行,因此这 2 个内核在不同的核上运行。并且根据 buf1 buf1d 2 个名称可见,现在这 2 个内核之间已实现了 1 个乒乓缓冲器。

由此可见,增加运行时参数可能增大计算图的资源使用率。

打开仿真输出文件 (Emulation-AIE/aiesimulator_output/output.txt)

可以看到,计算图的第一次迭代的最后一个样本现已在 724 ns 后输出。这意味着第一次迭代的时延稍有增加 (+10ns)。这可能是由于 2 个内核之间的乒乓缓冲器的锁定管理而导致的。但第二次迭代的首个样本在 966 ns 后到达(相比于先前结果减少了 473 ns)。

由于这 2 个内核当前从 2 个不同的核运行,因此现在可以并行运行,增加计算图的吞吐量。由此可见,增加运行时参数可能提升计算图的性能。

重要注释:

  • 将运行时比率增大至每个核 1 个内核可能不会提升计算图的性能。
  • 这是因为,它可能受到输入或输出吞吐量的限制。
  • 因此,运行时比率高于所需的值可能导致无法有效使用资源。
  •  
  • 减小运行时比率可能无法降低资源使用率。
  • 这是因为,编译器仅在合理的情况下才会把内核映射到相同的核。
  • 例如,此处 2 个内核整通过单个存储器进行通信。所有它们已相互依赖,只要其中一个内核尚未完成执行,另一个内核就无法开始处理数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/300227.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

cesium实现区域贴图及加载多个gif动图

1、cesium加载多个gif动图 Cesium的Billboard支持单帧纹理贴图&#xff0c;如果能够将gif动图进行解析&#xff0c;获得时间序列对应的每帧图片&#xff0c;然后按照时间序列动态更新Billboard的纹理&#xff0c;即可实现动图纹理效果。为此也找到了相对于好一点的第三方库libg…

亚线性空间算法1

流模型 问题&#xff1a;如果采用bit存储的话 可以是n或者是Logn 但是对于特别大的数据量 这也是不行的&#xff0c;所以我们思考是否有Loglogn的算法 来存储统计的数据。 问题1&#xff1a;近似计数Morris算法 多次实验 使结果更准确。 问题2&#xff1a;不重复元素/FM算法…

3分钟了解安全数据交换系统有什么用!

企业为了保护核心数据安全&#xff0c;都会采取一些措施&#xff0c;比如做网络隔离划分&#xff0c;分成了不同的安全级别网络&#xff0c;或者安全域&#xff0c;接下来就是需要建设跨网络、跨安全域的安全数据交换系统&#xff0c;将安全保障与数据交换功能有机整合在一起&a…

acwing linux docker教程

终章 听着名字还挺伤感的哈哈哈其实是Linux的终章&#xff0c;感谢大家这段时间的阅读&#xff0c;这段使时间我为了给大家清楚的讲解一下Linux自己也是很认真的学习了一遍&#xff0c;自己提升了也不少。其实最近学校里面是讲了Linux和windows server 2019搭载DNS、web、ftp服…

HarmonyOS 组件隔代双向数据通信Provide与Consume

今天 我们说一个场景 我们可以编写代码如下 Entry Component struct Index {State name:string "小猫猫";build() {Row() {Column() {Text(this.name)Button("改个name").onClick(() > {this.name this.name "小猫猫"?"小狗狗&quo…

论文阅读——X-Decoder

Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口&#xff0c;而是建立了一个通用的解码范式&#xff0c;该范式可以通过采用共同的&#xff08;例如语义&#…

VScode远程连接服务器,Pycharm专业版下载及远程连接(深度学习远程篇)

Visual Code、PyCharm专业版&#xff0c;本地和远程交互。 远程连接需要用到SSH协议的技术&#xff0c;常用的代码编辑器vscode 和 pycharm都有此类功能。社区版的pycharm是免费的&#xff0c;但是社区版不支持ssh连接服务器&#xff0c;只有专业版才可以&#xff0c;需要破解…

web架构师编辑器内容-HTML2Canvas 截图的原理

HTML2Canvas 截图的原理 目的&#xff1a;一个canvas元素&#xff0c;上面有绘制一系列的HTML节点 局限&#xff1a;canvas中没法添加具体的Html节点&#xff0c;它只是一张画布 通过canvas.getContext(‘2d’)可以拿到canvas提供的2D渲染上下文&#xff0c;然后在里面绘制形…

【Hive】——函数案例

1 Hive 多字节分隔符处理 1.1 默认规则 Hive默认序列化类是LazySimpleSerDe&#xff0c;其只支持使用单字节分隔符&#xff08;char&#xff09;来加载文本数据&#xff0c;例如逗号、制表符、空格等等&#xff0c;默认的分隔符为”\001”。根据不同文件的不同分隔符&#xf…

Git一个仓库包含多个不同的项目VUE(老项目的基础上,新建分支放新项目)

背景&#xff1a; 原有项目A&#xff08;vue2.6&#xff09;&#xff0c;需要在A的基础上接入组件库&#xff0c;涉及到项目升级&#xff0c;领导不想走这条路&#xff0c;建议重新构建一版2.7的项目B&#xff0c;那么现在就需要把项目B与项目A远程到同一个仓库&#xff1b; 解…

sigmoid softmax优化

1.前言 最近在搞模型部署发现&#xff0c;推理速度不能满足我们需求&#xff0c;于是最近学习了优化算子技巧&#xff0c;学到了sigmoid&#xff0c;softmax算子优化&#xff0c;真的数学之美。2.sigmoid算子优化 一.算子优化图 我们根据sigmoid公式&#xff0c;我们进行求反…

AI安全综述

1、引言 AI安全这个话题&#xff0c;通常会引伸出来图像识别领域的对抗样本攻击。下面这张把“熊猫”变“猴子”的攻击样例应该都不陌生&#xff0c;包括很多照片/视频过人脸的演示也很多。 对抗样本的研究领域已经具备了一定的成熟性&#xff0c;有一系列的理论来论述对抗样本…