Hadoop学习1:概述、单体搭建、伪分布式搭建

文章目录

    • 概述
      • 基础知识
      • Hadoop组件构成
      • Hadoop配置文件
    • 环境准备
      • 配置
      • Hadoop配置
        • 下载
        • 配置环境变量
    • Hadoop运行模式
      • Standalone Operation(本地)
        • 官方Demo
        • WordCount单词统计Demo
      • Pseudo-Distributed Operation(伪分布式模式)
        • 配置修改
        • 启动DFS【9870】
          • Hadoop-DFS数据清空格式化
          • 启动DFS组件
          • 访问DFS前端页面(不同版本的Hadoop的NameNode端口有变)
          • dfs命令使用(主要用来操作文件)
            • 复制物理机文件中hadoop中
            • 文件展示以及读取文件内容
            • 创建目录、文件
            • 使用mapreduce进行计算hadoop里面某个文件夹的内容
        • 启动Yarn组件【8088】
          • 配置修改
          • 启动
          • 访问yarn前端页面
          • 运行计算dfs某个目录所有文件的单词数,yarn页面有运行记录
        • 启动MapReduce组件
          • 配置修改
          • 启动日志采集系统
          • 查看任务日志
          • 启动日志聚集(任务执行的具体详情上传到HDFS组件中)
            • 未启动前
            • 启动

概述

Hadoop: 分布式系统基础架构

解决问题: 海量数据存储、海量数据的分析计算

官网:https://hadoop.apache.org/

HDFS(Hadoop Distributed File System): 分布式文件系统,用于存储数据

Hadoop的默认配置【core-site.xml】: https://hadoop.apache.org/docs/r3.3.6/hadoop-project-dist/hadoop-common/core-default.xml == 配置Hadoop集群中各个组件间共享属性和通用参数以实现更好的性能和可靠性 == hadoop目录\share\hadoop\common\hadoop-common-3.3.6.jar

Hadoop的默认配置【hdfs-site.xml】: https://hadoop.apache.org/docs/r3.3.6/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml === 配置HDFS组件中各种参数以实现更好的性能和可靠性(如数据块大小、心跳间隔等)== hadoop目录\share\hadoop\hdfs\hadoop-hdfs-3.3.6.jar

Hadoop的默认配置【mapred-site.xml】: https://hadoop.apache.org/docs/r3.3.6/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml === 配置MapReduce任务执行过程进行参数调整、优化等操作 == hadoop目录\share\hadoop\mapreduce\hadoop-mapreduce-client-core-3.3.6.jar

Hadoop的默认配置【yarn-site.xml】: https://hadoop.apache.org/docs/r3.3.6/hadoop-yarn/hadoop-yarn-common/yarn-default.xml === 配置YARN资源管理器(ResourceManager)和节点管理器(NodeManager)的行为 == hadoop目录\share\hadoop\yarn\hadoop-yarn-common-3.3.6.jar

基础知识

Hadoop三大发行版本
Apache:最基础版本,入门学习友好
Cloudera:大型互联网企业用的多 == 收费
Hotronwords:文档好
Hadoop优点
高可靠性:Hadoop底层维护多个数据副本,以即使adoop某个计算元素或存储出现贴故障,也不会导致据的丢失
高扩展性:在集间分配任务数据,可方便的扩展数刻以干十的节点
高效性:在MapReducel的思想下,Hadoop是并行工作的,以加快任务处理速度
高容错性:能够自动将失败的任务重新分配
Hadoop 1.x组成
HDFS:数据存储
Common:辅助工具
MapReduce:计算以及资源调度

Hadoop组件构成

Hadoop 2.x组成
HDFS:数据存储 == 涉及进程【NameNode、DataNode、SecondaryNameNode、Journal Node、NFSGateway】
Common:辅助工具
MapReduce:计算== 涉及进程【JobTracker、TaskTracker、MapTask、ReduceTask】
Yarn:资源调度 == 涉及进程【ResourceManager、NodeManager、ApplicationMaster、TimelineServer】
HDFS(分布式文件系统)组成
NameNode:存储文件元数据,属性信息,比如文件名、文件权限等,以及每个文件的快列表以及其所在的DataNode
DataNode:文件块数据、以及快数据的校验和
Secondary NameNode:监控HDFS状态的程序,每隔一段时间获取HDFS元数据快照
JournalNode:协调多个NameNodes之间共享编辑日志
NFSGateway:提供给用户访问 HDFS 文件系统的一种途径, 它将 HDFS 文件系统映射为标准的网络文件系统 (NFS) 挂载点
YARN(资源调度)组成
ResourceManager:主节点,负责协调集群资源并分配给各个应用程序
NodeManager:从节点,负责管理单个节点上的资源并执行任务
ApplicationMaster:新应用程序提交到集群时,会创建一个ApplicationMaster实例
TimelineServer:用户方便地查询 Hadoop 集群中运行过的历史作业和应用程序信息
MapReduce(计算)组成
JobTracker:主节点,负责协调集群资源并分配给各个任务
TaskTracker:从节点,负责管理单个节点上的资源并执行任务
JobHistoryServer:管理和存储MapReduce作业历史记录信息
MapTask和ReduceTask:执行任务的Java程序。新作业被提交到集群时,会创建多个Mapper和Reducer实例处理数据
MapReduce计算过程
Map:并行处理输入数据
Reduce:对Map结果进行汇总

在这里插入图片描述

Hadoop配置文件

配置文件路径: hadoop目录/etc/hadoop

在这里插入图片描述

Hadoop配置文件
core-site.xml:所有组件共享的通用属性和参数、修改文件系统、集群名称、日志路径等
hdfs-site.xml:HDFS特定的属性和参数、数据快大小、副本数、NameNode、DataNode的存储路径
mapred-site.xml:配置MapReduce任务执行过程进行参数调整、优化等操作
yarn-site.xml:配置YARN资源管理器(ResourceManager)和节点管理器(NodeManager)的行为

环境准备

配置

//修改主机名
//more /etc/sysconfig/network == 内容如下  //不同机器取不同的HOSTNAME,不要取成一样的
NETWORKING=yes
HOSTNAME=hadoop107  //=======================//固定IP地址 == 自行百度
ifconfig
more /etc/sysconfig/network-scripts/ifcfg-ens33 //=======================
// 查看自定义主机名、ip的映射关系 ==  more /etc/hosts
ping 主机名

在这里插入图片描述

在这里插入图片描述

Hadoop配置

下载

官网: https://hadoop.apache.org/releases.html

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

配置环境变量
//将压缩包解压到指定目录
mkdir  -p /opt/module/ &&  tar -zxvf hadoop-3.3.6.tar.gz -C /opt/module///进入解压后的软件目录
cd /opt/module/hadoop-3.3.6//设置环境变量
vim /etc/profile//此文件末尾添加下面四行内容
## Hadoop
export HADOOP_HOME=/opt/module/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin//使环境变量生效
source /etc/profile

在这里插入图片描述

在这里插入图片描述

Hadoop运行模式

默认模式
生产真正使用
分布模式
本地模式(Local) == Standalone Operation
伪分布模式(Pseudo-Distributed)== Pseudo-Distributed Operation
完全分布模式(Fully-Distributed)== Fully-Distributed Operation

Standalone Operation(本地)

参考: https://hadoop.apache.org/docs/r3.3.6/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_Operation

官方Demo

官方Demo,统计文件中某个正则规则的单词出现次数

# hadoop目录
cd /opt/module/hadoop-3.3.6# 创建数据源文件 == 用于下面进行demo统计单词
mkdir input# 复制一些普通的文件
cp etc/hadoop/*.xml input# 统计input里面的源文件规则是'dfs[a-z.]+'的单词个数,并将结果输出到当前目录下的output目录下 == 输出目录不得提前创建,运行时提示会报错
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep input output 'dfs[a-z.]+'# 查看统计结果
cat output/*
cat output/part-r-00000# 显示出来的结果,跟grep查出来的一样

在这里插入图片描述

WordCount单词统计Demo
//创建数据目录
mkdir -p /opt/module/hadoop-3.3.6/input/wordCountData && cd /opt/module/hadoop-3.3.6/input///文件数据创建 = 用于demo测试
echo "cat apple banana" >> wordCountData/data1.txt
echo "dog" >> wordCountData/data1.txt
echo " elephant" >> wordCountData/data1.txtecho "cat apple banana" >> wordCountData/data2.txt
echo "dog" >> wordCountData/data2.txt
echo " elephant queen" >> wordCountData/data2.txt//查看数据内容
more wordCountData/data1.txt
more wordCountData/data2.txt//开始统计wordCountData文件目录下的单词数
hadoop jar /opt/module/hadoop-3.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /opt/module/hadoop-3.3.6/input/wordCountData wordCountDataoutput//查看统计结果
cd /opt/module/hadoop-3.3.6/input/wordCountDataoutput
cat ./*

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Pseudo-Distributed Operation(伪分布式模式)

参考: https://hadoop.apache.org/docs/r3.3.6/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation

概述: 单节点的分布式系统(用于测试使用)

配置修改


核心配置文件修改: vim /opt/module/hadoop-3.3.6/etc/hadoop/core-site.xml

<configuration><!-- 默认是本地文件协议 file: --><property><name>fs.defaultFS</name><value>hdfs://192.168.19.107:9000</value></property><!-- 临时目录 默认/tmp/hadoop-${user.name}  --><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-3.3.6/tmp</value></property></configuration>


核心配置文件修改: vim /opt/module/hadoop-3.3.6/etc/hadoop/hdfs-site.xml

<configuration><!-- 集群设置为1, 默认3 --><property><name>dfs.replication</name><value>1</value></property></configuration>
启动DFS【9870】
Hadoop-DFS数据清空格式化
hdfs namenode -format

在这里插入图片描述

启动DFS组件

注意: 启动过程中可能遇到非root用户、JAVA_HOME找不到的现象,导致启动失败,自行参考下面的问题解决

# 未启动hadoop时所系统所运行java程序
jps# 启动hadoop相关的应用程序
sh /opt/module/hadoop-3.3.6/sbin/start-dfs.sh# 查看启动hadoop的应用变化
jps

在这里插入图片描述

访问DFS前端页面(不同版本的Hadoop的NameNode端口有变)

浏览器NameNode前端页面: http://192.168.19.107:9870/

在这里插入图片描述

在这里插入图片描述

dfs命令使用(主要用来操作文件)

帮助文档: hdfs dfs --help

在这里插入图片描述

复制物理机文件中hadoop中
hdfs dfs -mkdir /testhdfs dfs -put /opt/module/hadoop-3.3.6/input /test

在这里插入图片描述

在这里插入图片描述

文件展示以及读取文件内容
hdfs dfs -ls -R /hdfs dfs -cat /test/input/core-site.xml

在这里插入图片描述

创建目录、文件
hdfs dfs -mkdir -p /test/linrchdfs dfs -touch /test/linrc/1.txt

在这里插入图片描述

使用mapreduce进行计算hadoop里面某个文件夹的内容
hdfs dfs -ls /test/input# 对hadoop里面某个文件夹内容进行单词统计
hadoop jar /opt/module/hadoop-3.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /test/input/wordCountData /test/input/wordCountDataoutput2hdfs dfs -ls /test/input# 查看统计结果
hdfs dfs -cat /test/input/wordCountDataoutput2/*

在这里插入图片描述

启动Yarn组件【8088】
配置修改

强制指定Yarn的环境变量: /opt/module/hadoop-3.3.6/etc/hadoop/yarn-env.sh
在这里插入图片描述

export JAVA_HOME=/www/server/jdk8/jdk1.8.0_202



yarn-site.xml添加如下两个配置 /opt/module/hadoop-3.3.6/etc/hadoop/yarn-site.sh

<configuration><!-- Site specific YARN configuration properties == https://hadoop.apache.org/docs/r3.3.6/hadoop-yarn/hadoop-yarn-common/yarn-default.xml --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>192.168.19.107</value></property><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HO
ME</value></property><!-- 查看任务日志时,防止其重定向localhost,导致页面打开失败 --><property><name>yarn.timeline-service.hostname</name><value>192.168.19.107</value></property></configuration>

在这里插入图片描述

启动
//非常重要,必须回到hadoop的目录里面进行启动,我也不知道为什么
cd /opt/module/hadoop-3.3.6//不要使用 sh命令启动,否则报错,我也不知道为什么
./sbin/start-yarn.sh 

在这里插入图片描述

访问yarn前端页面

浏览器: http://ip:8088

yarn页面端口配置: https://hadoop.apache.org/docs/r3.3.6/hadoop-yarn/hadoop-yarn-common/yarn-default.xml的【yarn.resourcemanager.webapp.address】

在这里插入图片描述

在这里插入图片描述

运行计算dfs某个目录所有文件的单词数,yarn页面有运行记录

在这里插入图片描述

在这里插入图片描述

//单词计算开始
hadoop jar /opt/module/hadoop-3.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /test/input/wordCountData /test/input/wordCountDataoutput3

在这里插入图片描述

在这里插入图片描述

启动MapReduce组件
配置修改

强制指定mapred的环境变量: /opt/module/hadoop-3.3.6/etc/hadoop/mapred-env.sh
在这里插入图片描述

export JAVA_HOME=/www/server/jdk8/jdk1.8.0_202


mapred-site.xml添加如下配置: /opt/module/hadoop-3.3.6/etc/hadoop/mapred-site.xml
在这里插入图片描述

<configuration><!-- The runtime framework for executing MapReduce jobs. Can be one of local, classic or yarn --><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.application.classpath</name><value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value></property><!-- mr运行日志采集系统配置 --><property><name>mapreduce.jobhistory.address</name><value>192.168.19.107:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>192.168.19.107:19888</value></property></configuration>
启动日志采集系统

在这里插入图片描述

mapred --daemon start historyserver
查看任务日志

在这里插入图片描述

在这里插入图片描述

启动日志聚集(任务执行的具体详情上传到HDFS组件中)
未启动前

在这里插入图片描述

在这里插入图片描述

启动

注意: 如果yarn组件已经启动,修改yarn的配置需要重新启动,使得配置生效

#停止日志系统
mapred --daemon stop historyserver#停止yarn组件
cd /opt/module/hadoop-3.3.6
./sbin/stop-yarn.sh 

在这里插入图片描述

yarn-site.xml添加如下配置 /opt/module/hadoop-3.3.6/etc/hadoop/yarn-site.sh
在这里插入图片描述

<configuration><!-- Site specific YARN configuration properties == https://hadoop.apache.org/docs/r3.3.6/hadoop-yarn/hadoop-yarn-common/yarn-default.xml --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>192.168.19.107</value></property><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HO
ME</value></property><property><name>yarn.timeline-service.hostname</name><value>192.168.19.107</value></property><!-- 日志聚集启动 --><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 日志聚集的日志保留的时间,单位秒 --><property><name>yarn.log-aggregation.retain-seconds</name><value>2592000</value></property></configuration>



#启动yarn组件
cd /opt/module/hadoop-3.3.6
./sbin/start-yarn.sh#启动日志系统
mapred --daemon start historyserver

在这里插入图片描述


# 重新运行一个任务
hadoop jar /opt/module/hadoop-3.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /test/input/wordCountData /test/input/wordCountDataoutput5

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/542741.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

江科大stm32学习笔记【6-2】——定时器定时中断定时器外部时钟

一.定时器定时中断 1.原理 2.硬件 3.程序 此时CK_PSC72M&#xff0c;定时1s&#xff0c;也就是定时频率为1Hz&#xff0c;所以可以PSC7200-1,ARR10000-1。 Timer.c: #include "stm32f10x.h" // Device headerextern uint16_t Num;//声明跨文件的…

【SQL Server】实验四 数据更新

1 实验目的 掌握SQL数据更新语句的基本使用方法&#xff0c;如UPDATE、DELETE、INSERT。掌握更新语句条件中的嵌套查询使用方法。 2 实验内容 2.1 掌握SQL更新语句的基本使用方法 INSERT基本语句。UPDATE基本语句。DELETE基本语句。 2.2 掌握SQL更新语句的高级使用方法 …

AXI CANFD MicroBlaze 测试笔记

文章目录 前言测试用的硬件连接Vivado 配置Vitis MicroBlaze CANFD 代码测试代码测试截图Github Link 前言 官网: CAN with Flexible Data Rate (CAN FD) (xilinx.com) 特征: 支持8Mb/s的CANFD多达 3 个数据位发送器延迟补偿(TDC, transmitter delay compensation)32-deep T…

长江存储Nand闪存芯片和SSD解决方案

长江存储科技有限责任公司2016年7月成立于武汉&#xff0c; 是一家专注于3D NAND闪存设计制造一体化的IDM集成电路企业&#xff0c;同时也提供完整的存储器解决方案。长江存储为全球合作伙伴供应3D NAND闪存晶圆及颗粒&#xff0c; 嵌入式存储芯片以及消费级、企业级固态硬盘等…

报Invalid value type for attribute ‘factoryBeanObjectType‘: java.lang.String错误

在springboot中使用Mybatis出现Invalid value type for attribute factoryBeanObjectType: java.lang.String 1、没有使用mybatis 检查pom文件里面的mybatis 可能是缺少这个依赖&#xff0c;或者版本过低 重新导入依赖 <dependency><groupId>org.mybatis.spri…

如何在代理的IP被封后立刻换下一个IP继续任务

目录 前言 1. IP池准备 2. 使用代理IP进行网络请求 3. 处理IP被封的情况 4. 完整代码示例 总结 前言 当进行某些网络操作时&#xff0c;使用代理服务器可以帮助我们隐藏真实IP地址以保护隐私&#xff0c;或者绕过一些限制。然而&#xff0c;经常遇到的问题是代理的IP可能…

深度学习模型部署(十)模型部署配套工具二

上篇blog讲了trtexec和onnx_graphsurgeon两个工具&#xff0c;一个用于将onnx转化为trt模型&#xff0c;另一个用于对onnx模型进行修改。这篇blog讲polygraphy和nsight systems&#xff0c;前者用于进行模型优化以及结果验证&#xff0c;后者用于性能分析。 polygraph polygra…

OJ_数组划分

题干 C实现——复杂度极高的深度优先遍历(容易超时) #include <iostream> #include <vector> using namespace std;//sasb sum //sb-sa diffint sum 0; int diff 0;void DFSFindMinDiff(vector<int> &arr,int pos,int sa) { //sa表示a集合的元素和i…

【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“

在最近的学术圈中出现了一篇令人哭笑不得的论文。这篇文章标题为“The three-dimensional porous mesh structure of Cu-base…”发表在《Surfaces and Interfaces》杂志上&#xff0c;竟然包含了ChatGPT的提示语&#xff0c;暴露出了审稿过程中可能的疏忽。 文章讨论了铜基金…

构建部署_Jenkins介绍与安装

构建部署_Jenkins介绍与安装 构建部署_Jenkins介绍与安装Jenkins介绍Jenkins安装 构建部署_Jenkins介绍与安装 Jenkins介绍 Jenkins是一个可扩展的持续集成引擎。 持续集成&#xff0c;就是通常所说的CI&#xff08;Continues Integration&#xff09;&#xff0c;可以说是现…

【PyTorch】基础学习:在Pycharm等IDE中打印或查看Pytorch版本信息

【PyTorch】基础学习&#xff1a;在Pycharm等IDE中打印或查看Pytorch版本信息 &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程&#x1…

最新潮乎盲盒系统源码,附搭建教程

搭建方法 宝塔创建网站&#xff0c;上传后端程序到根目录&#xff0c;在.env修改数据库账号密码 上传数据库&#xff0c;伪静态thinkphp 运行目录public PHP扩展安装下面的 禁用函数先禁用下面那个&#xff0c;就可以了 前端是uniapp 后台admin 禁用函数putenv、 扩展fileinfo…