ASPLOS 2024 Paper 论文阅读笔记整理
问题
新兴的实时多模型ML(RTMM)工作负载,如AR/VR和无人机控制,涉及各种粒度的动态行为:任务、模型和模型中的层。这种动态行为给ML系统中的系统软件带来了新的挑战,与传统的ML工作负载不同,总体系统负载不是完全可预测的。此外,RTMM工作负载需要实时处理,涉及高度异构的模型,并以资源受限的设备为目标。考虑到RTMM工作负载的独特特性,需要开发一个有效的调度器来更好地利用底层硬件。
挑战
面对一些新的挑战:(1)来自不同任务和多模态传感器输入的高度异构的ML模型(例如,模型大小、算子和张量大小);(2)不同级别的丰富动态性;(3)复杂的模型级数据和控制依赖性;(4)目标设备(例如,AR眼镜)中的计算能力和能量受限;(5)实时要求。
现有方法不能满足RTMM的各种挑战
本文方法
本文提出了调度器DREAM,可以有效地处理RTMM系统中实时性、并发性、多模型、多任务的挑战。
-
对于实时性和并发性,提出了MapScore评分指标,该指标同时考虑了紧迫性和公平性,有助于优化特定任务性能的和所有任务的整体性能。
-
对于级联模型的复杂依赖,跟踪输入帧内和多个帧之间的模型依赖性。
-
对于动态性,开发了具有可调参数的动态调度方法,可以快速有效地适应工作负载的变化。
-
支持各种基于加速器的ML系统,包括具有异构大小和数据流的多加速器。
-
提出一种抢先丢帧方法,当预计会违反截止日期时,该方法会提前丢帧,有助于跨帧和模型进行全局优化。
-
RTMM背景下的超网切换探索[4],该超网利用权重共享超网,在重系统负载下动态切换到较轻的模型变体来改进ML系统调度器,也促进了全局范围内的优化。
在五种RTMM工作负载场景的评估中,与最先进的基线相比,DREAM将总体UXCost(RTMM的能量延迟乘积(EDP)的等效度量)的几何平均值分别降低了32.2%和50.0%。
实验
实验环境:
数据集:
实验对比:UXCost(截止日期违规率和能耗率的乘积)、参数变化
实验参数:数据集、实验环境
总结
针对实时多模型ML(RTMM)工作负载设计调度器,需要同时考虑多种挑战:异构的ML模型;动态性;数据和控制依赖性;设备计算和能量受限;实时要求。本文提出调度器DREAM,可以有效地处理RTMM系统中实时性、并发性、多模型、多任务的挑战。(1)对于实时性和并发性,提出了MapScore评分指标,同时考虑了紧迫性和公平性。(2)对于级联模型的复杂依赖,跟踪输入帧内和多个帧之间的模型依赖性。(3)对于动态性,开发了具有可调参数的动态调度方法,快速有效地适应工作负载的变化。(4)支持各种基于加速器的ML系统,包括具有异构大小和数据流的多加速器。(5)提出抢先丢帧方法,当预计会违反截止日期时,该方法会提前丢帧,有助于跨帧和模型进行全局优化。(6)超网切换,利用权重共享超网,在重系统负载下动态切换到较轻的模型变体来改进ML系统调度器。