Hadoop高可用搭建

news/2025/1/11 3:50:43/文章来源:https://www.cnblogs.com/bjynjj/p/18526040

搭建前准备（检查是否满足以下条件）

1、关防火墙

service firewalld stop

2、时间同步

yum install ntp
ntpdate -u s2c.time.edu.cn
或者
date -s 20180503

3、免密钥 (远程执行命令)

在两个主节点生成密钥文件
ssh-keygen -t rsa
ssh-copy-id ipmaster-->master,node1,node2
node1-->master,node1,node2

4、停止hadoop集群

stop-all.sh

开始搭建

1、修改hadoop配置文件

修改配置文件中的以下内容,复制的时候注意修改成自己的主机名和ip地址

vim core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://cluster</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/soft/hadoop-3.1.2/tmp</value> </property><property><name>fs.trash.interval</name><value>1440</value></property><property><name>ha.zookeeper.quorum</name><value>master:2181,node1:2181,node2:2181</value></property>
</configuration>

vim hdfs-site.xml

<configuration>
<!-- 指定hdfs元数据存储的路径 -->
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/soft/hadoop-3.1.2/data/namenode</value>
</property><!-- 指定hdfs数据存储的路径 -->
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/soft/hadoop-3.1.2/data/datanode</value>
</property><!-- 数据备份的个数 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property><!-- 关闭权限验证 -->
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property><!-- 开启WebHDFS功能（基于REST的接口服务） -->
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property><!-- //////////////以下为HDFS HA的配置////////////// -->
<!-- 指定hdfs的nameservices名称为mycluster -->
<property>
<name>dfs.nameservices</name>
<value>cluster</value>
</property><!-- 指定cluster的两个namenode的名称分别为nn1,nn2 -->
<property>
<name>dfs.ha.namenodes.cluster</name>
<value>nn1,nn2</value>
</property><!-- 配置nn1,nn2的rpc通信端口 -->
<property>
<name>dfs.namenode.rpc-address.cluster.nn1</name>
<value>master:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-address.cluster.nn2</name>
<value>node1:8020</value>
</property><!-- 配置nn1,nn2的http通信端口 -->
<property>
<name>dfs.namenode.http-address.cluster.nn1</name>
<value>master:9870</value>
</property>
<property>
<name>dfs.namenode.http-address.cluster.nn2</name>
<value>node1:9870</value>
</property><!-- 指定namenode元数据存储在journalnode中的路径 -->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://master:8485;node1:8485;node2:8485/cluster</value>
</property><!-- 指定journalnode日志文件存储的路径 -->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/usr/local/soft/hadoop-3.1.2/data/journal</value>
</property><!-- 指定HDFS客户端连接active namenode的java类 -->
<property>
<name>dfs.client.failover.proxy.provider.cluster</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property><!-- 配置隔离机制为ssh -->
<property>
<name>dfs.ha.fencing.methods</name>
<value>
sshfence
shell(/bin/true)
</value>
</property><!-- 指定秘钥的位置 -->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property><!-- 开启自动故障转移 -->
<property>  
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
</configuration>

在hadoop-env.sh文件中配置HDFS_JOURNALNODE_USER
找到合适位置添加即可

vim hadoop-env.sh
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root

2、同步到其它节点

改成自己的路径

cd /usr/local/soft/hadoop-3.1.2/etc/hadoop
scp ./* node1:`pwd`
scp ./* node2:`pwd`

3、删除hadoop数据存储目录下的文件每个节点都需要删除

rm -rf /usr/local/soft/hadoop-2.7.6/tmp

4、启动zookeeper 三台都需要启动

zkServer.sh start
zkServer.sh status

5、启动JN 存储hdfs元数据

三台JN上执行启动命令：

hadoop-daemon.sh start journalnode

6、格式化在一台NN上执行，这里选择master

hdfs namenode -format

7、启动当前的NN

hadoop-daemon.sh start namenode

8、执行同步没有格式化的NN上执行在另外一个namenode上面执行这里选择node1

hdfs namenode -bootstrapStandby

9、格式化ZK在master上面执行

！！一定要先把zookeeper集群正常启动起来再格式化

 /usr/local/soft/hadoop-2.7.6/bin/hdfs zkfc -formatZK

10、启动hdfs集群,在master上执行

start-dfs.sh

将master中的NameNode杀死,刷新页面发现node1变成了活跃状态

再重新启动集群,刷新页面发现master变为备用(不活跃)状态

后续使用的时候步骤：

1、开启虚拟机
2、每台机器先启动zk
3、在master上执行start-dfs.sh
4、关闭高可用hdfs stop-dfs.sh

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/826755.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【bypass系列】绕过命令过滤器：探索Unix/Linux中的Bypass技术

原创 visionsec 安全视安免责声明该公众号分享的安全工具和项目均来源于网络，仅供安全研究与学习之用，如用于其他用途，由使用者承担全部法律及连带责任，与工具作者和本公众号无关。在Unix或Linux系统的安全测试和网络防御中，了解如何绕过命令过滤器是非常重要的。今天，我…

群晖数据自动同步百度云盘

1、在群晖后台打开应用 Cloud Sync应用（没有需自己安装）。 2、选择百度云 3、这里需要注意下，同步实际上是以下这两个文件夹同步，并不是百度云的根目录， 1、群辉nas：/homes/zhanglei/百度网盘 2、百度网盘：我的应用数据 ->Cloud Sync 另外建议：设置中的同步方向修改…

PVE 虚拟机 Ubuntu Server安装FTP功能

Ubuntu Server 18.04安装完成后，SSH功能默认已安装，可以通过22端口直接访问，但FTP功能默认未安装，需要自己手动安装并配置参数文件，具体步骤如下。1、更新软件包列表：sudo apt update2、安装vsftpdsudo apt install vsftpd3、备份原始配置文件（可选）sudo cp /etc/vsft…

Linux系统压力测试工具(命令行工具)

Linux的命令行压力测试工具在做基准测试时很有用，通过基准测试对了解一个系统所能达到的最大性能指标，这些指标可以作为后续性能比较、优化评估的参考依据。模拟CPU压力：可以使用stress命令使CPU处于高负载状态。例如，通过stress -c 4命令（-c选项用于指定CPU核心数），会…

实景三维赋能森林防灭火指挥调度智慧化

森林防灭火工作是保护森林资源和生态环境的重要任务。随着信息技术的发展，实景三维技术在森林防灭火指挥调度中的应用日益广泛，为提升防灭火工作的效率和效果提供了有力支持。一、森林防灭火面临的挑战森林火灾具有突发性强、破坏性大、蔓延速度快、扑救困难等特点。传统的防…

java中的Math.round(-1.5)等于多少

-1 等于 -1，因为在数轴上取值时，中间值（0.5）向右取整，所以正 0.5 是往上取整，负 0.5 是直接舍弃。（观点不认同） Math提供了三个与取整有关的方法：ceil、floor、round （1）ceil：向上取整；（2）floor：向下取整；（3）round：四舍五入； 1、ceil：向上取整向上取整…

双向IPC的一个常见应用：从渲染器进程代码调用主进程模块并等待结果【ipcRenderer.invoke】《==============》【ipcMain.handle()】main.js const { app, BrowserWindow, ipcMain, dialog } = require(electron/main) const path = require(node:path)async function handleF…

关于如何根据shp文件筛选csv某个省份数据集

问题描述：现在我有一个中国地图的shp文件和一个全球降水数据的csv文件，我只想要四川省份的降水数据，该如何得到。中国地图中国全球降雨数据格式点击查看代码 import geopandas as gpd import pandas as pd shp = gpd.read_file(r.\中华人民共和国\中华人民共和国.shp,en…

数据采集作业3

课程链接 https://edu.cnblogs.com/campus/fzu/2024DataCollectionandFusiontechnology作业链接 https://edu.cnblogs.com/campus/fzu/2024DataCollectionandFusiontechnology/homework/13287实验三仓库链接 https://gitee.com/wd_b/party-soldier-data-collection/tree/master…

10分钟快速开发一个监控ASIN的系统-计算引擎

定义数据模型发布生成表单 Python端直接操作亚马逊amazon# <span data-hook="rating-out-of-text" aria-hidden="true" class="a-size-medium a-color-base">4.5 out of 5</span>if com_amz_x.check_driver_is_exists_by_x_path(…

数据库 PostgreSQL 和 MySQL 开源协议的区别

说到开源数据库，很多人想到了MySQL和PostgreSQL数据库，这是两种比较有名和使用量较多的数据库技术，两者虽然都是开源的，但开源协议是不一样的。 PostgreSQL遵循灵活的开源协议BSD，MySQL使用的是GPL(GNU General Public License)协议，二者有以下区别： 1. 商业使用限制方面…

Hadoop高可用搭建

搭建前准备（检查是否满足以下条件）

1、关防火墙

2、时间同步

3、免密钥 (远程执行命令)

4、停止hadoop集群

开始搭建

1、修改hadoop配置文件

修改配置文件中的以下内容,复制的时候注意修改成自己的主机名和ip地址

2、同步到其它节点

3、删除hadoop数据存储目录下的文件每个节点都需要删除

4、启动zookeeper 三台都需要启动

5、启动JN 存储hdfs元数据

6、格式化在一台NN上执行，这里选择master

7、启动当前的NN

8、执行同步没有格式化的NN上执行在另外一个namenode上面执行这里选择node1

9、格式化ZK在master上面执行

10、启动hdfs集群,在master上执行

后续使用的时候步骤：

相关文章

【bypass系列】绕过命令过滤器：探索Unix/Linux中的Bypass技术

群晖数据自动同步百度云盘

PVE 虚拟机 Ubuntu Server安装FTP功能

Linux系统压力测试工具(命令行工具)

实景三维赋能森林防灭火指挥调度智慧化

java中的Math.round(-1.5)等于多少

11月4日作业

Electron: 渲染器进程到主进程（双向）

关于如何根据shp文件筛选csv某个省份数据集

数据采集作业3

10分钟快速开发一个监控ASIN的系统-计算引擎

数据库 PostgreSQL 和 MySQL 开源协议的区别

Hadoop高可用搭建

搭建前准备（检查是否满足以下条件）

1、关防火墙

2、时间同步

3、免密钥 (远程执行命令)

4、停止hadoop集群

开始搭建

1、修改hadoop配置文件

修改配置文件中的以下内容,复制的时候注意修改成自己的主机名和ip地址

2、同步到其它节点

3、删除hadoop数据存储目录下的文件 每个节点都需要删除

4、启动zookeeper 三台都需要启动

5、启动JN 存储hdfs元数据

6、格式化 在一台NN上执行，这里选择master

7、启动当前的NN

8、执行同步 没有格式化的NN上执行 在另外一个namenode上面执行 这里选择node1

9、格式化ZK在master上面执行

10、启动hdfs集群,在master上执行

后续使用的时候步骤：

相关文章

3、删除hadoop数据存储目录下的文件每个节点都需要删除

6、格式化在一台NN上执行，这里选择master

8、执行同步没有格式化的NN上执行在另外一个namenode上面执行这里选择node1