YARN详解

YARN 简介

YARN 是Yet Another Resource Negotiator的缩写。
YARN是第二代MapReduce,即MRv2,是在第一代MapReduce基础上演变而来的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的;通俗讲就是资源管理器.

  • YARN核心思想:

将 MR1 中资源管理和作业调度两个功能分开,分别由 ResourceManager 和 ApplicationMaster 进程来实现。
ResourceManager : 负责整个集群的资源管理和调度。
ApplicationMaster : 负责应用程序相关事务,比如任务调度、任务监控和容错等。

YARN 作用

YARN 采用了一种分层的集群框架,它解决了 MR1.0 一系列的缺陷,具有以下优势:

  1. 具有向后兼容性,用户在 MR1.0 上运行的作业,无需任何修改即可运行在 YARN 之上.
  2. 将JobTracker功能分解,分别由ResouceManager(资源管理)和ApplicationMaster(应用程序管理)负责,每个应用程序(节点进程)对应一个ApplicationMaster.
  3. 支持多个框架,不再是一个单纯的计算框架,而是一个框架管理器(更加抽象所以拓展性强),用户可以将各种各样的计算框架移植到YARN之上,由YARN进行统一管理和资源分配,提高集群资源的利用率.
  4. 框架升级更容易,在YARN中,各种计算框架(MR,Spark)不再是作为一个服务部署到集群的各个节点上,而是被封装成一个用户程序库(lib)存放在客户端,当需要对计算框架进行升级时,只需升级用户程序库即可.

YARN 组成

YARN 主要由
ResourceManagerNodeManagerApplicationMasterContainerScheduler
等几个组件构成。
在这里插入图片描述

ApplicationsManager

应用程序管理器
负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动ApplicationMaster、监控ApplicationMaster运行状态并在失败时重新启动它等。

Scheduler

调度器
根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序;
在资源紧张的情况下,可以kill掉优先级低的,来运行优先级高的任务.

ResourceManager

全局资源管理器;
由调度器(Scheduler)和应用程序管理器(ApplicationsManager)组成,
RM是一个全局的资源管理器,负责整个系统的资源管理和分配;
通俗讲就是用于管理NodeManager 节点的资源,包括cpu、内存等.

ApplicationMaster

应用程序实例管理器
管理在 YARN 内运行的每个应用程序实例.
每个应用程序对应一个 AM.
AM 负责协调来自 RM 的资源,并通过 NM监视容器的执行和资源使用(CPU、内存等的资源分配),通俗讲是管理发起的任务,随着任务创建而创建,任务的完成而结束.

NodeManager

节点管理器 是每个节点上的资源和任务管理器. 一方面,它会定时地向 RM 汇报本节点上的资源使用情况和各个Container的运行状态;
另一方面,它接收并处理来自 AM 的Container启动/停止等各种请求.

Container

容器,是 YARN 中的资源抽象 它封装了 NM 节点上的多维度资源,如内存、CPU、磁盘、网络等;
当 AM 向 RM申请资源时,RM为AM返回的资源便是用Container表示的.
YARN 会为每个任务分配一个Container,且该任务只能使用该Container 中描述的资源.

YARN 提交任务的过程

在这里插入图片描述

  1. 用户向 YARN 中提交应用程序.
  2. ResourceManager为该应用程序分配第一个Container,要求它在这个Container中启动应用程序的ApplicationMaster.
  3. ApplicationMaster首先向ResourceManager注册,目的是让用户可以直接通过ResourceManager查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束.
  4. ApplicationMaster向ResourceManager 的 scheduler申请和领取资源(通过RPC协议).
  5. ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务.
  6. NodeManager启动任务。
  7. 各个任务向ApplicationMaster汇报自己的状态和进度(通过RPC协议),以便让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务.
  8. 应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己.

YARN的三种调度策略

FIFO 策略

在这里插入图片描述

First In First Out,先进先出.
弊端:
没有做到资源共享;由于顺序执行任务,如果第一个是大量资源,后续任务需要等待.

举例:
有两个任务,第一个是任务需要大量资源;第二个需要少量资源,但是紧急重要任务;
此时第二个需要等待第一个执行完,才能执行.

容量调度策略

在这里插入图片描述

属于共享调度策略;将集群资源,给队列分配部分资源,每个队列互不干涉.
弊端:
某个队列突然来个大的任务,那这个大的任务不会占用其他队列资源,执行时间长,效率低.
解决:
配置弹性队列;允许队列超过自己配置的容量,但仅在其他队列没有占用资源的情况下.
容量调度 + 弹性队列 = 实现资源共享

公平调度策略

在这里插入图片描述

队列间可以互相共享资源,如果权重高的任务来了,权重低的任务会分给权重高的任务部分资源,必要时,可kill掉权重低的任务.

1.Steady Fair Share
稳定的公平份额,指Yarn根据每个队列的权重weight、最大可运行资源maxShare、最小可运行资源minShare的配置计算得到的理论上应该分配给这个队列的最大资源;
它与这个队列当前是否有app正在运行无关,只和我们在fair-scheduler.xml中的配置有关.

2.Instantaneous Fair Share
瞬时的公平份额,指的是实时动态分配的资源,它的值是随着集群资源的变动而实时变动的;
如果集群中有队列从active变为inactive(不活动的),那么剩余的队列分到的instaneous fair share都会随之变大;反之,如果有一个队列从inactive变为active,则其他队列的instaneous fair share会随之变小,即instaneous fair share会变小.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/674747.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux\_c输出

第一条Linux_c输出 初界面 : ls # 显示目录下的文件cd # 进入到某个目录 # 比如 我进入了Codels # 发现没有显示, 说明为文件下为空vim cpucdoe.c # 创建一个 .c的源码文件进入到了vim的编辑界面: i # 按i 就可以进行编辑 , 下面显示插入标识在编辑模式下, 可以通…

QX-mini51学习---(2)点亮LED

目录 1什么是ed 2led工作参数 3本节相关原理图分析 4本节相关c 5实践 1什么是ed 半导体发光二极管,将电能转化为光能,耗电低,寿命长,抗震动 长正短负,贴片是绿点处是负极 2led工作参数 3本节相关原理图分析 当…

(五)JVM实战——JVM性能调优与监控

JVM调优案例的场景 为什么要调优:防止或者解决jvm虚拟机中的OOM问题;减少FullGC出现的频率,解决系统运行卡、慢问题JVM调优案例的四个方面 OOM(堆溢出):java heap spaceOOM(元空间溢出):MetaspaceOOM(GC overhead lim…

cmake install命令无法覆盖同名文件

文章目录 1. 问题记录2. 原因排查3. 解决方案 1. 问题记录 我有两个同名文件test.txt,它们内容不同,但时间戳相同(文件属性中的修改时间相同) 我希望在cmake中利用install命令,将${PATH_SRC}/test.txt替换${PATH_DES…

idea修改maven项目名称及子模块名称

一、修改目录名称 shift F6修改目录,选择“rename module and dictionary”。![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/43efd9c6af6e43ad9656455db94b37a2.png)二、修改子项目pom的 三、修改父项目pom的 四、刷新maven项目

Redis教程——主从复制

在上篇文章我们学习了Redis教程——管道,这篇文章学习Redis教程——主从复制。 主从复制 为了数据更加安全可靠,在实际的项目中,肯定是有多个Redis服务,主机Redis以写为主,从机Redis以读为主,当主机Redis…

JavaScript异步编程——03-Ajax传输json和XML

Ajax 传输 JSON JSON 的语法 JSON(JavaScript Object Notation):是 ECMAScript 的子集。作用是进行数据的交换。语法更为简洁,网络传输、机器解析都更为迅速。 语法规则: 数据在键值对中 数据由逗号分隔 花括号保存对象 方括号保存数组…

Python批量计算多张遥感影像的NDVI

本文介绍基于Python中的gdal模块,批量基于大量多波段遥感影像文件,计算其每1景图像各自的NDVI数值,并将多景结果依次保存为栅格文件的方法。 如下图所示,现在有大量.tif格式的遥感影像文件,其中均含有红光波段与近红外…

NFTScan 与 Scattering 达成合作伙伴,双方将共同解决混合 NFT 数据需求

在区块链领域,NFT 的创新与发展从未停止。近日,NFT 数据基础设施 NFTScan 与一站式混合 NFT 交易市场 Scattering 达成合作伙伴关系,双方将在 NFT 数据层面展开合作,共同解决混合 NFT 的独特数据需求,Scattering 在协议…

聊聊 ASP.NET Core 中间件(三):如何创建自己的中间件?

前言 本质上,中间件类也是一个普通的 .NET 类,它不需要继承任何父类或者实现任何接口。 但是有几个约定: 需要有一个构造方法构造方法至少要有一个 RequestDelegate 类型的参数,用来指向下一个中间件。需要定义一个名字为 Invo…

【超好用的前端表单辅助功能】

前端表单辅助功能 1. 根据模块自动生成目录锚点定位2. 描点定位动态组件3. 隔离组件,组件内部实现校验逻辑,交给提交按钮统一处理4. 选择不同的类型需要重组不同的模块展示,并整合数据传给后端 最近做了一个复杂的表单,涉及到的技…

30分钟打造属于自己的Flutter内存泄漏检测工具---FlutterLeakCanary

30分钟打造属于自己的Flutter内存泄漏检测工具 思路检测Dart 也有弱引用-----WeakReference如何执行Full GC?如何知道一个引用他的文件路径以及类名? 代码实践第一步,实现Full GC第二步,如何根据对象引用,获取出他的类…