上一篇文章中： Spark_Spark 中 Stage, Job 划分依据 , Job, Stage, Task 基础知识_spark stage job_高达一号的博客-CSDN博客

主要解读了Stage, job, task 的划分标准，这篇文章将对这些信息进行进一步解读。

一. Job、Stage、Task的概念

在讲Spark的任务的划分和调度之前，需要明确Spark中Job、Stage、Task的概念。

Job：Spark中的算子分为转换（transformation）算子和行动（action）算子，一个action就会触发一个Job。
Stage：一个Job分为一个或者多个Stage，Stage以RDD宽依赖（也就是shuffle）为界，shuffle前后的RDD属于不同的Stage，Stage的数量等于shuffle操作的数量+1，如图

Task：一个Stage包含一个或者多个Task，一个Stage包含的Task的数量等于这个Stage最后一个RDD的partition的数量。Task中包含了这个计算任务的计算逻辑以及数据位置等信息，Task是Executor执行任务的最小单位。

二. Spark任务执行的流程

在上一篇文章中，我们讲解了Spark提交任务的整个流程（Spark on Yarn提交任务过程）。以yarn cluster模式提交一个Spark任务之后，会依次做以下几件事情：

启动ApplicationMaster
ApplicationMaster会启动Driver线程
Driver线程进行SparkContext的初始化，SparkContext中有三个重要的组件：DAGScheduler，TaskScheduler，SchedulerBackend
ApplicationMaster向yarn ResourceManager申请Container资源，申请成功后启动Executor，Executor会向Driver反向注册
action行动算子触发，向Driver线程提交一个Job
Job执行完毕，Spark程序执行完成

这篇文章主要就是讲解第5步。action行动算子触发后，会生成一个Job，然后向Driver提交，整个过程如何呢？

1. DAGScheduler，TaskScheduler，SchedulerBackend

DAGScheduler，TaskScheduler，SchedulerBackend是Driver中三个非常重要的组件，他们的作用如下：

DAGScheduler：根据RDD的依赖关系，将Job划分为一个或多个Stage，每个Stage会依据最后一个RDD的partition的数量生成一个或多个Task，同一Stage的Task属于同一TaskSet（任务集），DAGScheduler向TaskScheduler提交任务是以TaskSet为单位
TaskScheduler：接收来自DAGScheduler提交的TaskSet，向Executor分发Task
SchedulerBackend：TaskScheduler与Executor进行RPC通信的后台

2. Job提交的流程

RDD经过一系列transformation算子，形成RDD的血缘关系图，并得到ResultRDD。ResultRDD提交给DAGScheduler，DAGScheduler能通过ResultRDD得到所有RDD的依赖关系（DAG图），并依据DAG图将Job划分得到一个或多个Stage，每一个Stage会形成一个TaskSet，DAGScheduler会依次向TaskScheduler提交这些TaskSet。TaskScheduler负责Task级别的调度，调度过程由SchedulerBackend向TaskScheduler返回可用的Executor列表，TaskScheduler依据一定的策略从TaskPool中取出TaskSet，然后将TaskSet中的Task分发给Executor执行，分发Task的命令同样由SchedulerBackend通过RPC向Executor传达。各个模块之间的交互如图所示：

parititon和task的关系

来源：spark task partition 并行度线程 stage等的关系

Task是Spark中最新的执行单元。RDD一般是带有partitions的，每个partition的在一个executor上的执行可以任务是一个Task。
每个Task执行的结果就是生成了目标RDD的一个partiton。
每个Executor由若干core组成，每个Executor的每个core一次只能执行一个Task

三. DAGScheduler

DAGScheduler的runJob方法用来对RDD的行动算子生成一个Job，并对Job进行调度和提交，整个过程如下：

为这个Job生成一个JobId，这个JobId是全局唯一的。
生成finalStage，finalStage是RDD的DAG图中最后一个Stage。
依据DAG图，从finalStage一级一级向上找他的parent stage，直到第一级的Stage，第一级的Stage没有parent stage，即他不依赖其他的Stage。
将第一级Stage生成为一个TaskSet，TaskSet包含了一系列Task，每一个Task就是这个Stage的RDD的一个partiton的计算任务，Task中包含了这个计算任务的计算逻辑以及partiton的数据位置等信息。
将这个TaskSet提交给TaskScheduler。
TaskScheduler执行完TaskSet中的所有Task，会通知DAGScheduler，DAGScheduler对这个TaskSet对应的Stage的childStage执行第4步，如此往复循环，直到执行完finalStage，整个Job就算完成了。

四. TaskScheduler

TaskScheduler接收来自DAGScheduler提交的TaskSet，并放入任务池（Pool），通过一定的策略不断地从Pool中取出TaskSet，然后将TaskSet中的Task分发给Executor执行。整个过程如下：

将TaskSet封装为一个TaskSetManager
将TaskSetManager加入到Pool中
TaskScheduler向SchedulerBackend发出一条ReviveOffers命令
SchedulerBackend接收到命令，向TaskScheduler返回可用的Executor列表以及这些Executor的相关的信息
TaskScheduler按照一定的策略和任务优先级从Pool中依次取出TaskSetManager，然后将TaskSetManager中的Task分发给Executor，分发的原则是尽可能地将Task均匀地分发给Executor，同时会考虑节点本地性
TaskScheduler将Task->Executor的映射信息打包成TaskDescription发送给SchedulerBackend。
SchedulerBackend根据TaskDescription将每个Task分发到其对应的Executor
Executor执行完分发给他的Task，通知TaskScheduler
如果TaskScheduler发现TaskSet中的所有Task都已经完成了，则会通知DAGScheduler，然后DAGScheduler继续向TaskScheduler提交下一个TaskSet

五. TaskScheduler的调度TaskSet和分配Task的原理

1. TaskSet的调度

TaskScheduler内部有两个调度算法：FIFO（先进先出算法）和FAIR（公平调度算法），默认是使用FIFO算法，也就是哪个TaskSet先提交，哪个TaskSet的优先级就越高。而FAIR算法则会综合考虑TaskSet的Task数量以及Task运行所需要的资源，总的来说就是，Task数越少、Task运行所需资源越少的TaskSet优先级越高。

2. Task的分配

Task的分配指的是将TaskSet中的哪个Task分配给哪个Executor，依据的原则主要是Task的节点本地性（TaskLocality）。

2.1 什么是节点本地性

Task内部有一个成员变量：

def preferredLocations: Seq[TaskLocation] = Nil

preferredLocations表明了这个Task的位置偏好，这个变量的值是根据Task的数据的位置得到的，可以是一个hostName或者execotorId。例如，如果Task的数据是在192.168.5.101和192.168.5.102这两台机器上，那么：

preferredLocations=["192.168.5.101","192.168.5.102"]

然后，TaskSetManager内部有这么几个变量，用来保存他的所有的Task的节点偏好：

  // Set of pending tasks for each executor.val forExecutor = new HashMap[String, ArrayBuffer[Int]]// Set of pending tasks for each host. Similar to pendingTasksForExecutor, but at host level.val forHost = new HashMap[String, ArrayBuffer[Int]]// Set containing pending tasks with no locality preferences.val noPrefs = new ArrayBuffer[Int]// Set of pending tasks for each rack -- similar to the above.val forRack = new HashMap[String, ArrayBuffer[Int]]// Set containing all pending tasks (also used as a stack, as above).val all = new ArrayBuffer[Int]

forExecutor是一个HashMap，key为executorId，value是preferredLocations为这个executor的所有task的taskId
forHost是一个HashMap，key为hostName，value是preferredLocations为这个host的所有task的taskId
noPrefs是一个Array，保存了所有无任何preferredLocations的task的taskId
forRack是一个HashMap，key为rackName，value是preferredLocations为这个rack的所有task的taskId
all是一个Array，保存了所有task的taskId，可以理解为是上面4个集合的taskId的并集

TaskSetManager中还有一个重要的成员变量：

private[scheduler] var myLocalityLevels：Array[TaskLocality.TaskLocality]

这个变量保存了TaskSetManager的本地性级别（locality levels），这个变量是根据上述5个集合是否为空来确定的：

//伪码：
myLocalityLevels=new Array[TaskLocality.TaskLocality]
if forExecutor.isNotEmpty:myLocalityLevels += PROCESS_LOCAL
if forHost.isNotEmpty:myLocalityLevels += NODE_LOCAL
if noPrefs.isNotEmpty:myLocalityLevels += NO_PREF
if forRack.isNotEmpty:myLocalityLevels += RACK_LOCAL
myLocalityLevels += Any

举个例子：
TaskSetManager中有3个Task，他们的preferredLocations分别为：

task1：preferredLocations=["192.168.5.101"]  //task1的数据在192.168.5.101这台机器上
task2：preferredLocations=["executor 1"]     //task2的数据在executor 1这个executor上
task3：preferredLocations=["192.168.5.102"]  //task3的数据在192.168.5.102这台机器上

那么5个集合的值为：

forExecutor：["executor 1"->[2]]  //task2的preferredLocations为executor 1
forHost：["192.168.5.101"->[1],"192.168.5.102"->[3]] //task1的preferredLocations为"192.168.5.101"，task3的preferredLocations为"192.168.5.102"
noPrefs：None
forRack：None
all：[1,2,3] //一共有三个task，task1，task2和task3

那么myLocalityLevels的值为：

myLocalityLevels = [PROCESS_LOCAL,NODE_LOCAL,ANY]

2.2 如何按照preferredLocations来分配Task

TaskScheduler为Executor分配Task时，会遍历myLocalityLevels，依次按照PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、Any的顺序来为Executor分配Task，如果某个Executor能找到符合当前TaskLocality的Task，那么就把这个Task分配给这个Executor。仍然以上面那个例子为例，TaskSetManager的5个集合以及myLocalityLevels为：

forExecutor：["executor 1"->[2]]  //task2的preferredLocations为executor 1
forHost：["192.168.5.101"->[1],"192.168.5.102"->[3]] //task1的preferredLocations为"192.168.5.101"，task3的preferredLocations为"192.168.5.102"
noPrefs：None
forRack：None
all：[1,2,3] //一共有三个task，task1，task2和task3
myLocalityLevels = [PROCESS_LOCAL,NODE_LOCAL,ANY]

Executor及其所在的及其的hostname为：

"executor 1" -> "192.168.5.101" 
"executor 2" -> "192.168.5.102"
"executor 3" -> "192.168.5.103"

当前TaskLocality为PROCESS_LOCAL，遍历所有的Executor，发现 “executor 1” 在forExecutor的keySet中，并且对应的value为[2]，因此将task2分配为“executor 1”
当前TaskLocality为NODE_LOCAL，遍历所有的Executor，发现 “executor 1” 所在的host为 “192.168.5.101”，且 “192.168.5.101” 在forHost的keySet中，对应的value为[1]，因此将task1分配给“executor 1”；发现"executor 2" 所在的host为 “192.168.5.102”，且 “192.168.5.102” 在forHost的keySet中，对应的value为[3]，因此将task3分配给“executor 2”
当前TaskLocality为ANY，但所有Task都已经分配完了，因此不进行分配
分配结束

用伪码表示这个过程：

for currentLocality <- taskSetManager.myLocalityLevels:for executor <- allExecutors:if executor in currentLocality对应的集合:task = 集合中executor对应的valueif task未分配：将task分配给executor

2.3 一个小坑

在Standalone模式下，如果Task的数据源是HDFS，那么Task在计算他的preferredLocations时，计算出的是这个Task的数据所在机器的hostname，例如，task1的数据在HDFS集群的192.168.5.101这个节点上有一个副本，而192.168.5.101这台服务器的hostname为“hadoop1”那么他的preferredLocations为：

preferredLocations=["hadoop1"]

然而，Spark计算某个Executor所在的节点时，默认情况下使用的是这个节点的IP地址，如果executor 1所在的host为192.168.5.101，那么在遍历forHost集合时，会认为“192.168.5.101”不在forHost的keySet中（因为forHost的keySet保存的是服务器的hostname，而不是ip地址），而实际上“192.168.5.101”和"hadoop1"是同一台服务器，因此在按照TaskLocality分配Task的过程中，可能不会正确地将task1分配给executor 1。
那么怎么解决这个问题呢？只需要在每个节点的spark-env.sh配置文件中显示地指定这个节点的hostname：

export SPARK_LOCAL_HOSTNAME=*hostname of this node*

注意，这个坑只在Standalone模式下才会出现，yarn模式下是不会出现的。

Spark_Spark中 Stage, Job 划分依据 , Job, Stage, Task 高阶知识

一. Job、Stage、Task的概念

二. Spark任务执行的流程

1. DAGScheduler，TaskScheduler，SchedulerBackend

2. Job提交的流程

parititon和task的关系

三. DAGScheduler

四. TaskScheduler

五. TaskScheduler的调度TaskSet和分配Task的原理

1. TaskSet的调度

2. Task的分配

2.1 什么是节点本地性

2.2 如何按照preferredLocations来分配Task

2.3 一个小坑

相关文章

【图像分类】理论篇（4）图像增强opencv实现

DevOps系列文章之 Gitlab+Docker自动部署SpringBoot

数据结构：力扣OJ题（每日一练）

win10中Docker安装、构建镜像、创建容器、Vscode连接实例

深入理解Python装饰器：解析高阶函数与代码美学

纯js点击按钮切换首页部分页面

【C++】多态的概念和简单介绍、虚函数、虚函数重写、多态构成的条件、重载、重写、重定义

多线程与高并发--------线程池

使用wxPython和PyMuPDF提取PDF页面指定页数的内容的应用程序

微信小程序（由浅到深）

同比增长近4倍！5G智能座舱爆发

在Visual Studio上，使用OpenCV实现人脸识别