Hadoop高可用搭建

news/2025/1/11 3:50:43/文章来源:https://www.cnblogs.com/bjynjj/p/18526040

搭建前准备(检查是否满足以下条件)

1、关防火墙

service firewalld stop

2、时间同步

yum install ntp
ntpdate -u s2c.time.edu.cn
或者
date -s 20180503

3、免密钥 (远程执行命令)

在两个主节点生成密钥文件
ssh-keygen -t rsa
ssh-copy-id ipmaster-->master,node1,node2
node1-->master,node1,node2

4、停止hadoop集群

stop-all.sh

开始搭建

1、修改hadoop配置文件

修改配置文件中的以下内容,复制的时候注意修改成自己的主机名和ip地址

vim core-site.xml
<configuration><property><name>fs.defaultFS</name><value>hdfs://cluster</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/soft/hadoop-3.1.2/tmp</value> </property><property><name>fs.trash.interval</name><value>1440</value></property><property><name>ha.zookeeper.quorum</name><value>master:2181,node1:2181,node2:2181</value></property>
</configuration>
vim hdfs-site.xml
<configuration>
<!-- 指定hdfs元数据存储的路径 -->
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/soft/hadoop-3.1.2/data/namenode</value>
</property><!-- 指定hdfs数据存储的路径 -->
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/soft/hadoop-3.1.2/data/datanode</value>
</property><!-- 数据备份的个数 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property><!-- 关闭权限验证 -->
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property><!-- 开启WebHDFS功能(基于REST的接口服务) -->
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property><!-- //////////////以下为HDFS HA的配置////////////// -->
<!-- 指定hdfs的nameservices名称为mycluster -->
<property>
<name>dfs.nameservices</name>
<value>cluster</value>
</property><!-- 指定cluster的两个namenode的名称分别为nn1,nn2 -->
<property>
<name>dfs.ha.namenodes.cluster</name>
<value>nn1,nn2</value>
</property><!-- 配置nn1,nn2的rpc通信端口 -->
<property>
<name>dfs.namenode.rpc-address.cluster.nn1</name>
<value>master:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-address.cluster.nn2</name>
<value>node1:8020</value>
</property><!-- 配置nn1,nn2的http通信端口 -->
<property>
<name>dfs.namenode.http-address.cluster.nn1</name>
<value>master:9870</value>
</property>
<property>
<name>dfs.namenode.http-address.cluster.nn2</name>
<value>node1:9870</value>
</property><!-- 指定namenode元数据存储在journalnode中的路径 -->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://master:8485;node1:8485;node2:8485/cluster</value>
</property><!-- 指定journalnode日志文件存储的路径 -->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/usr/local/soft/hadoop-3.1.2/data/journal</value>
</property><!-- 指定HDFS客户端连接active namenode的java类 -->
<property>
<name>dfs.client.failover.proxy.provider.cluster</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property><!-- 配置隔离机制为ssh -->
<property>
<name>dfs.ha.fencing.methods</name>
<value>
sshfence
shell(/bin/true)
</value>
</property><!-- 指定秘钥的位置 -->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property><!-- 开启自动故障转移 -->
<property>  
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
</configuration>

在hadoop-env.sh文件中配置HDFS_JOURNALNODE_USER
找到合适位置添加即可

vim hadoop-env.sh
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root

2、同步到其它节点

改成自己的路径

cd /usr/local/soft/hadoop-3.1.2/etc/hadoop
scp ./* node1:`pwd`
scp ./* node2:`pwd`

3、删除hadoop数据存储目录下的文件 每个节点都需要删除

rm -rf /usr/local/soft/hadoop-2.7.6/tmp

4、启动zookeeper 三台都需要启动

zkServer.sh start
zkServer.sh status

5、启动JN 存储hdfs元数据

三台JN上执行 启动命令:

hadoop-daemon.sh start journalnode

image-20241104172111708

6、格式化 在一台NN上执行,这里选择master

hdfs namenode -format

7、启动当前的NN

hadoop-daemon.sh start namenode

image-20241104172413228

8、执行同步 没有格式化的NN上执行 在另外一个namenode上面执行 这里选择node1

hdfs namenode -bootstrapStandby

image-20241104172536059

9、格式化ZK在master上面执行

!!一定要先把zookeeper集群正常启动起来再格式化

 /usr/local/soft/hadoop-2.7.6/bin/hdfs zkfc -formatZK

10、启动hdfs集群,在master上执行

start-dfs.sh

image-20241104175855218

image-20241104175950850

image-20241104180018125

image-20241104180146494

将master中的NameNode杀死,刷新页面发现node1变成了活跃状态

image-20241104180325678

image-20241104180412844
再重新启动集群,刷新页面发现master变为备用(不活跃)状态
image-20241104180537649

image-20241104180607308

后续使用的时候步骤:

1、开启虚拟机
2、每台机器先启动zk
3、在master上执行start-dfs.sh
4、关闭高可用hdfs stop-dfs.sh

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/826755.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【bypass系列】绕过命令过滤器:探索Unix/Linux中的Bypass技术

原创 visionsec 安全视安免责声明 该公众号分享的安全工具和项目均来源于网络,仅供安全研究与学习之用,如用于其他用途,由使用者承担全部法律及连带责任,与工具作者和本公众号无关。在Unix或Linux系统的安全测试和网络防御中,了解如何绕过命令过滤器是非常重要的。今天,我…

群晖数据自动同步百度云盘

1、在群晖后台打开应用 Cloud Sync应用(没有需自己安装)。 2、选择百度云 3、这里需要注意下,同步实际上是以下这两个文件夹同步,并不是百度云的根目录, 1、群辉nas:/homes/zhanglei/百度网盘 2、百度网盘:我的应用数据 ->Cloud Sync 另外建议:设置中的同步方向修改…

PVE 虚拟机 Ubuntu Server安装FTP功能

Ubuntu Server 18.04安装完成后,SSH功能默认已安装,可以通过22端口直接访问, 但FTP功能默认未安装,需要自己手动安装并配置参数文件,具体步骤如下。1、更新软件包列表:sudo apt update2、安装vsftpdsudo apt install vsftpd3、备份原始配置文件(可选)sudo cp /etc/vsft…

Linux系统压力测试工具(命令行工具)

Linux的命令行压力测试工具在做基准测试时很有用,通过基准测试对了解一个系统所能达到的最大性能指标,这些指标可以作为后续性能比较、优化评估的参考依据。 模拟CPU压力: 可以使用stress命令使CPU处于高负载状态。例如,通过stress -c 4命令(-c选项用于指定CPU核心数),会…

实景三维赋能森林防灭火指挥调度智慧化

森林防灭火工作是保护森林资源和生态环境的重要任务。随着信息技术的发展,实景三维技术在森林防灭火指挥调度中的应用日益广泛,为提升防灭火工作的效率和效果提供了有力支持。一、森林防灭火面临的挑战森林火灾具有突发性强、破坏性大、蔓延速度快、扑救困难等特点。传统的防…

java中的Math.round(-1.5)等于多少

-1 等于 -1,因为在数轴上取值时,中间值(0.5)向右取整,所以正 0.5 是往上取整,负 0.5 是直接舍弃。(观点不认同) Math提供了三个与取整有关的方法:ceil、floor、round (1)ceil:向上取整; (2)floor:向下取整; (3)round:四舍五入; 1、ceil:向上取整 向上取整…

Electron: 渲染器进程到主进程(双向)

双向IPC的一个常见应用:从渲染器进程代码调用主进程模块并等待结果 【ipcRenderer.invoke】《==============》【ipcMain.handle()】main.js const { app, BrowserWindow, ipcMain, dialog } = require(electron/main) const path = require(node:path)async function handleF…

关于如何根据shp文件筛选csv某个省份数据集

问题描述:现在我有一个中国地图的shp文件和一个全球降水数据的csv文件,我只想要四川省份的降水数据,该如何得到。中国地图 中国全球降雨数据格式点击查看代码 import geopandas as gpd import pandas as pd shp = gpd.read_file(r.\中华人民共和国\中华人民共和国.shp,en…

数据采集作业3

课程链接 https://edu.cnblogs.com/campus/fzu/2024DataCollectionandFusiontechnology作业链接 https://edu.cnblogs.com/campus/fzu/2024DataCollectionandFusiontechnology/homework/13287实验三仓库链接 https://gitee.com/wd_b/party-soldier-data-collection/tree/master…

10分钟快速开发一个监控ASIN的系统-计算引擎

定义数据模型 发布生成表单 Python端直接操作亚马逊amazon# <span data-hook="rating-out-of-text" aria-hidden="true" class="a-size-medium a-color-base">4.5 out of 5</span>if com_amz_x.check_driver_is_exists_by_x_path(…

数据库 PostgreSQL 和 MySQL 开源协议的区别

说到开源数据库,很多人想到了MySQL和PostgreSQL数据库,这是两种比较有名和使用量较多的数据库技术,两者虽然都是开源的,但开源协议是不一样的。 PostgreSQL遵循灵活的开源协议BSD,MySQL使用的是GPL(GNU General Public License)协议,二者有以下区别: 1. 商业使用限制方面…