Hadoop-Yarn-ResourceManagerHA

在这里先给屏幕面前的你送上祝福,祝你在未来一年:技术步步高升、薪资节节攀升,身体健健康康,家庭和和美美。

一、介绍

在Hadoop2.4之前,ResourceManager是YARN集群中的单点故障

ResourceManager HA是通过 Active/Standby 体系结构实现的,在任何时候其中一个RM都是活动的,并且一个或多个RM处于备用模式,等待在活动发生任何事情时接管。

二、架构

官网的架构图如下:

1、Active 状态的 ResourceManager 将自己的状态写入ZooKeeper

2、如果 Active 状态的 ResourceManager状态发生改变,可以通过自动或手动方式完成故障转移

三、故障转移

1、手动转换

        如果未启用自动故障切换,管理员必须手动将其中一个ResourceManager转换为活动。要从一个ResourceManager故障切换到另一个ResourceManager,他们应该首先将活动ResourceManager转换为备用ResourceManager,然后将备用ResourceManager转换为活动ResourceManager。相关命令如下:

        获取所有RM节点的状态
                yarn rmadmin -getAllServiceState
        获取 rm1 节点的状态
                yarn rmadmin -getServiceState rm1
        手动将 rm1 的状态切换到STANDBY
                yarn rmadmin -transitionToStandby rm1
                或
                yarn rmadmin -transitionToStandby -forcemanual rm1
        手动将 rm1 的状态切换到ACTIVE
                yarn rmadmin -transitionToActive rm1
                或 
                yarn rmadmin -transitionToActive -forcemanual rm1

2、自动切换

        ResourceManager可以选择嵌入基于Zookeeper的ActiveStandbyElector来决定哪个ResourceManager应该是Active。当Active宕机或无响应时,会自动选择另一个ResourceManager作为Active,然后由它接管。需要注意的是Yarn不需要像HDFS那样运行单独的ZKFC守护进程,因为嵌入在ResourceManager中的ActiveStandbyElector充当故障检测器和领导者选举人。

        配置示例如下:

<property><name>yarn.resourcemanager.ha.enabled</name><value>true</value><description>开启resourcemanager的HA</description>
</property>
<property><name>yarn.resourcemanager.cluster-id</name><value>cluster1</value><description>标识群集。由选举人使用,以确保RM不会作为“活动”接管另一个群集。</description>
</property>
<property><name>yarn.resourcemanager.ha.rm-ids</name><value>rm1,rm2</value><description>RM的逻辑ID列表</description>
</property>
<property><name>yarn.resourcemanager.hostname.rm1</name><value>master1</value><description>对于每个rm-ids,指定rm对应的主机名。或者,可以设置rm的每个服务地址</description>
</property>
<property><name>yarn.resourcemanager.hostname.rm2</name><value>master2</value><description>对于每个rm-ids,指定rm对应的主机名。或者,可以设置rm的每个服务地址</description>
</property>
<property><name>yarn.resourcemanager.webapp.address.rm1</name><value>master1:8088</value><description>对于每个rm-ids,指定与之对应的rm web应用程序的host:port</description>
</property>
<property><name>yarn.resourcemanager.webapp.address.rm2</name><value>master2:8088</value><description>对于每个rm-ids,指定与之对应的rm web应用程序的host:port</description>
</property>
<property><name>hadoop.zk.address</name><value>zk1:2181,zk2:2181,zk3:2181</value><description>ZK法定人数的地址。用于两者状态和领导人选举</description>
</property>

四、源码分析

在我的上一篇<Hadoop-Yarn-启动篇>博客中有ResourceManager的启动源码,现在我们只将关于HA的部分拿处理分析下

1、设置HA配置

    //登录前应设置HA配置this.rmContext.setHAEnabled(HAUtil.isHAEnabled(this.conf));if (this.rmContext.isHAEnabled()) {HAUtil.verifyAndSetConfiguration(this.conf);}public static boolean isHAEnabled(Configuration conf) {//即获取yarn.resourcemanager.ha.enabled的值return conf.getBoolean(YarnConfiguration.RM_HA_ENABLED,YarnConfiguration.DEFAULT_RM_HA_ENABLED);}public static void verifyAndSetConfiguration(Configuration conf)throws YarnRuntimeException {//验证配置是否至少有两个RM id,并且为每个RM-id指定了RPC地址。然后设置RM id。//即 配置文件中的 yarn.resourcemanager.ha.rm-ids 对应配置的多个 RM 节点的RPC地址verifyAndSetRMHAIdsList(conf);//设置 yarn.resourcemanager.ha.id 的值,如果没有配置则通过匹配yarn.reresourcemanager.address来计算verifyAndSetCurrentRMHAId(conf);//验证 Leader 选举服务是否已启用。YARN允许在配置中禁用领导层选举,从而中断自动故障切换verifyLeaderElection(conf);//验证所有服务的地址//    RM_ADDRESS 即 yarn.resourcemanager.address//    RM_SCHEDULER_ADDRESS 即 yarn.resourcemanager.scheduler.address//    RM_ADMIN_ADDRESS 即 yarn.resourcemanager.admin.address//    RM_RESOURCE_TRACKER_ADDRESS 即 yarn.resourcemanager.resource-tracker.address//    RM_WEBAPP_ADDRESS 即 yarn.resourcemanager.webapp.addressverifyAndSetAllServiceAddresses(conf);}

2、添加选举人

//必须在管理员服务后添加选举人
if (this.rmContext.isHAEnabled()) {//获取配置文件中yarn.resourcemanager.ha.automatic-failover.enabled的值,默认true//    启用自动故障切换;默认情况下,只有在启用HA时才会启用它。//获取配置文件中yarn.resourcemanager.ha.automatic-failover.embedded的值,默认true//    启用嵌入式自动故障切换。默认情况下,只有在启用HA时才会启用它。//    嵌入式elector依赖于RM状态存储来处理围栏,主要用于与ZKRMStateStore结合使用。if (HAUtil.isAutomaticFailoverEnabled(conf)&& HAUtil.isAutomaticFailoverEmbedded(conf)) {EmbeddedElector elector = createEmbeddedElector();//添加Curator的领导人选举服务addIfService(elector);rmContext.setLeaderElectorService(elector);}
}protected EmbeddedElector createEmbeddedElector() throws IOException {EmbeddedElector elector;//获取配置文件中 yarn.resourcemanager.ha.curator-leader-elector.enabled 的值,默认true/是否使用Curator-based的选举人进行领导人选举curatorEnabled =conf.getBoolean(YarnConfiguration.CURATOR_LEADER_ELECTOR,YarnConfiguration.DEFAULT_CURATOR_LEADER_ELECTOR_ENABLED);if (curatorEnabled) {//获取ZooKeeper Curator管理器,创建并启动(如果不存在)this.zkManager = createAndStartZKManager(conf);/使用Curator的领导人选举实施elector = new CuratorBasedElectorService(this);} else {elector = new ActiveStandbyElectorBasedElectorService(this);}return elector;
}

3、创建并启动ZooKeeper Curator管理器

Curator是Netflix公司在原生zookeeper客户端基础上开源的第三方Java客户端,使用它可以去操作zookeeper创建、删除、查询、修改znode节点

  public ZKCuratorManager createAndStartZKManager(Configurationconfig) throws IOException {//提供特定于ZK操作的实用程序方法的Helper类ZKCuratorManager manager = new ZKCuratorManager(config);//获取身份验证List<AuthInfo> authInfos = new ArrayList<>();//获取 yarn.resourcemanager.ha.enabled 值,默认false//获取 yarn.resourcemanager.zk-state-store.root-node.acl + yarn.resourcemanager.ha.id 的值//yarn.resourcemanager.ha.id官方解释:(在第1步已经设置过这个值了)//当前RM的id(字符串)。启用HA时,这是一个可选配置。当前RM的id可以通过显式指定yarn.resourcemanager.ha.id来设置,也可以通过匹配yarn.reresourcemanager.address来计算。具有本地地址的{id}请参阅yarn.resourcemanager.ha.enabled的描述,了解如何使用它的完整详细信息。//yarn.resourcemanager.zk-state-store.root-node.acl官方解释://在HA场景中使用ZKRMStateStore进行围栏时,用于根znode的ACL。ZKRMStateStore支持隐式围栏,允许单个ResourceManager对存储进行写访问。对于围栏,群集中的ResourceManager在根节点上共享读写管理权限,但Active ResourceManager声明具有独占的创建-删除权限。默认情况下,当未设置此属性时,我们使用来自yarn.resourcemanager.zk-cl的acl进行共享管理访问,并使用rm address:random number进行基于用户名的独占创建-删除访问。此属性允许用户设置自己选择的ACL,而不是使用默认机制。为了使围栏发挥作用,应在每个ResourceManager上小心地以不同的方式设置ACL,以便所有ResourceManager都具有共享的管理访问权限,而Active ResourceManager(仅)接管创建-删除访问权限。if (HAUtil.isHAEnabled(config) && HAUtil.getConfValueForRMInstance(YarnConfiguration.ZK_RM_STATE_STORE_ROOT_NODE_ACL, config) == null) {String zkRootNodeUsername = HAUtil.getConfValueForRMInstance(YarnConfiguration.RM_ADDRESS,YarnConfiguration.DEFAULT_RM_ADDRESS, config);// private final String zkRootNodePassword =Long.toString(new SecureRandom().nextLong());//由此可见 zkRootNodePassword 是一个随机数String defaultFencingAuth =zkRootNodeUsername + ":" + zkRootNodePassword;//RM地址和一个随机数构建了一个字节数组byte[] defaultFencingAuthData =defaultFencingAuth.getBytes(Charset.forName("UTF-8"));//构建身份验证摘要String scheme = new DigestAuthenticationProvider().getScheme();AuthInfo authInfo = new AuthInfo(scheme, defaultFencingAuthData);authInfos.add(authInfo);}//开始连接到ZooKeeper集合manager.start(authInfos);return manager;}

4、连接ZooKeeper集合

public void start(List<AuthInfo> authInfos) throws IOException {//获取ZooKeeper团队地址 即 hadoop.zk.address//	    <property>//		  <name>hadoop.zk.address</name>//		  <value>zk1:2181,zk2:2181,zk3:2181</value>//		  <description>ZK法定人数的地址。用于两者状态和领导人选举</description>//		</property>//String zkHostPort = conf.get(CommonConfigurationKeys.ZK_ADDRESS);if (zkHostPort == null) {throw new IOException(CommonConfigurationKeys.ZK_ADDRESS + " is not configured.");}//获取 hadoop.zk.num-retries 的值  默认值 1000//ZooKeeper操作的最大重试次数 int numRetries = conf.getInt(CommonConfigurationKeys.ZK_NUM_RETRIES,CommonConfigurationKeys.ZK_NUM_RETRIES_DEFAULT);//获取 hadoop.zk.timeout-ms 的值 默认值 10000//ZooKeepers操作超时(以毫秒为单位)int zkSessionTimeout = conf.getInt(CommonConfigurationKeys.ZK_TIMEOUT_MS,CommonConfigurationKeys.ZK_TIMEOUT_MS_DEFAULT);//获取 hadoop.zk.retry-interval-ms 的值  默认值 1000 //以毫秒为单位重试ZooKeeper操作的频率int zkRetryInterval = conf.getInt(CommonConfigurationKeys.ZK_RETRY_INTERVAL_MS,CommonConfigurationKeys.ZK_RETRY_INTERVAL_MS_DEFAULT);RetryNTimes retryPolicy = new RetryNTimes(numRetries, zkRetryInterval);//设置ZooKeeper身份验证List<ZKUtil.ZKAuthInfo> zkAuths = getZKAuths(conf);if (authInfos == null) {authInfos = new ArrayList<>();}for (ZKUtil.ZKAuthInfo zkAuth : zkAuths) {authInfos.add(new AuthInfo(zkAuth.getScheme(), zkAuth.getAuth()));}//获取客户端框架CuratorFramework client = CuratorFrameworkFactory.builder().connectString(zkHostPort).sessionTimeoutMs(zkSessionTimeout).retryPolicy(retryPolicy).authorization(authInfos).build();//启动client.start();this.curator = client;}

5、启动Curator的领导人选举服务

  protected void serviceInit(Configuration conf) throws Exception {rmId = HAUtil.getRMHAId(conf);String clusterId = YarnConfiguration.getClusterId(conf);//获取 yarn.resourcemanager.ha.automatic-failover.zk-base-path  的值 默认值 /yarn-leader-election//官网解释:使用基于ZooKeeper的领导人选举时,用于存储领导人信息的基本znode路径。String zkBasePath = conf.get(YarnConfiguration.AUTO_FAILOVER_ZK_BASE_PATH,YarnConfiguration.DEFAULT_AUTO_FAILOVER_ZK_BASE_PATH);latchPath = zkBasePath + "/" + clusterId;//第3步已经设置过了,这里直接取curator = rm.getCurator();//初始化并启动LeaderLatchinitAndStartLeaderLatch();super.serviceInit(conf);}

五、总结

1、判断配置文件中是否配置了HA开启

2、如果开启了HA,开始配置并设置启动必要参数

3、根据配置文件添加选举人

4、获取ZooKeeper Curator管理器,创建并启动

5、连接到ZooKeeper集合

6、获取客户端框架并启动

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/469705.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年,要特别注意这两个方位

家居风水对每个家庭都非常重要&#xff0c;可在无形中影响到人们的事业、财富以及健康运势。俗话说&#xff1a;“风水轮流转”&#xff0c;2024年为甲辰龙年&#xff0c;斗转星移、九宫飞星将改变宫位&#xff0c;新一年的磁场即将启动&#xff0c;方位的吉凶也会重新变动&…

[缓存] - 1.缓存共性问题

1. 缓存的作用 为什么需要缓存呢&#xff1f;缓存主要解决两个问题&#xff0c;一个是提高应用程序的性能&#xff0c;降低请求响应的延时&#xff1b;一个是提高应用程序的并发性。 1.1 高并发 一般来说&#xff0c; 如果 10Wqps&#xff0c;或者20Wqps &#xff0c;可使用分布…

【C语言必刷题】1.打印1~100之间的奇数

&#x1f4da;博客主页&#xff1a;爱敲代码的小杨. ✨专栏&#xff1a;《Java SE语法》 | 《数据结构与算法》 | 《C生万物》 ❤️感谢大家点赞&#x1f44d;&#x1f3fb;收藏⭐评论✍&#x1f3fb;&#xff0c;您的三连就是我持续更新的动力❤️ &#x1f64f;小杨水平有…

你的电脑关机吗

目录 程序员为什么不喜欢关电脑&#xff1f; 电脑长时间不关机会怎样? 电脑卡顿 中度风险 硬件损耗 能源浪费 散热问题 软件问题 网络安全问题 程序员为什么不喜欢关电脑&#xff1f; 大部分人都会选择将电脑进行关机操作。其实这不难理解&#xff0c;毕竟人类都需要…

浅谈Linux环境

冯诺依曼体系结构&#xff1a; 绝大多数的计算机都遵守冯诺依曼体系结构 在冯诺依曼体系结构下各个硬件相互配合处理数据并反馈结果给用户 其中控制器和运算器统称为中央处理器&#xff08;CPU&#xff09;&#xff0c;是计算机硬件中最核心的部分&#xff0c;像人类的大脑操控…

Mysql第一关之常规用法

简介 介绍Mysql常规概念&#xff0c;用法。包括DDL、DCL、DML、DQL&#xff0c;关键字、分组、连表、函数、排序、分页等。 一、 SQL DCMQ&#xff0c;分别代表DDL、DCL、DML、DQL。 模糊简记为DCMQ&#xff0c;看起来像一个消息队列。 D&#xff1a;Definition 定义语句 M…

vue3 之 商城项目—购物车

购物车业务逻辑梳理拆解 1️⃣整个购物车的实现分为两个大分支&#xff0c;本地购物车操作和接口购物车操作 2️⃣由于购物车数据的特殊性&#xff0c;采取Pinia管理购物车列表数据并添加持久话缓存 本地购物车—加入购物车实现 stores/cartStore.js // 封装购物车模块 imp…

2024.2.10 HCIA - Big Data笔记

1. 大数据发展趋势与鲲鹏大数据大数据时代大数据的应用领域企业所面临的挑战和机遇华为鲲鹏解决方案2. HDFS分布式文件系统和ZooKeeperHDFS分布式文件系统HDFS概述HDFS相关概念HDFS体系架构HDFS关键特性HDFS数据读写流程ZooKeeper分布式协调服务ZooKeeper概述ZooKeeper体系结构…

【AI视野·今日Sound 声学论文速览 第四十九期】Wed, 17 Jan 2024

AI视野今日CS.Sound 声学论文速览 Wed, 17 Jan 2024 Totally 23 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Sound Papers From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers Authors Jiu Feng, Mehmet Hamza Erol, Joon Son Chung,…

【初学者必看】迈入Midjourney的艺术世界:轻松掌握Midjourney的注册与订阅!

文章目录 前言一、Midjourney是什么二、Midjourney注册三、新建自己的服务器四、开通订阅 前言 AI绘画即指人工智能绘画&#xff0c;是一种计算机生成绘画的方式。是AIGC应用领域内的一大分支。 AI绘画主要分为两个部分&#xff0c;一个是对图像的分析与判断&#xff0c;即…

测试开发-2-概念篇

文章目录 衡量软件测试结果的依据—需求1.需求的概念2.从软件测试人员角度看需求3.为什么需求对软件测试人员如此重要4.如何才可以深入理解被测试软件的需求5.测试用例的概念6.软件错误&#xff08;BUG&#xff09;的概念7.开发模型和测试模型8.软件的生命周期9.瀑布模型&#…

Python算法题集_对称二叉树

Python算法题集_对称二叉树 题101&#xff1a;对称二叉树1. 示例说明2. 题目解析- 题意分解- 优化思路- 测量工具 3. 代码展开1) 标准求解【DFS递归】2) 改进版一【BFS迭代】3) 改进版二【BFS迭代deque】 4. 最优算法 本文为Python算法题集之一的代码示例 题101&#xff1a;对…