Hadoop1X,Hadoop2X和hadoop3X有很大的区别么?

Hadoop的演进从Hadoop 1到Hadoop 3主要是为了提供更高的效率、更好的资源管理、更高的可靠性以及对更多数据处理方式的支持。下面是Hadoop 1, Hadoop 2, 和 Hadoop 3之间的主要区别和演进的原因:

Hadoop 1

特点:

  • 主要包括两大核心组件:HDFS(Hadoop Distributed File System)和MapReduce。

  • Hadoop 1的资源管理和作业调度都由JobTracker完成,JobTracker同时负责资源管理和作业监控。

局限性:

  • 单点故障:NameNode是HDFS的单点故障。如果NameNode宕机,整个系统将无法使用。

  • 可扩展性:由于所有的资源管理和调度任务都由JobTracker管理,当集群规模增大时,JobTracker的性能成为瓶颈。

  • 资源利用率:MapReduce作业中Map任务和Reduce任务不能独立扩展,导致资源利用率不高。

  • 只支持MapReduce计算模型,不适用于其他类型的计算任务,如图处理、迭代计算等。

Hadoop 2

主要改进:

  • 引入了YARN(Yet Another Resource Negotiator),将资源管理和作业调度的功能分开:

    • ResourceManager:负责系统的资源管理。

    • ApplicationMaster:每个应用程序(如一个MapReduce作业)有其自己的ApplicationMaster,负责该应用的资源协调和监控。

  • 支持了NameNode的高可用性配置,可以通过配置活动和备用NameNode来防止单点故障。

优点:

  • 更好的资源管理:允许更灵活的资源分配,提高资源利用率。

  • 可扩展性:ResourceManager仅管理资源,而不负责作业调度,极大提高了系统的扩展性。

  • 多框架支持:除了MapReduce,还可以支持其他计算框架,如Apache Spark、Apache Tez等。

Hadoop 3

主要改进:

  • 支持更多的NameNode和更高的可扩展性,允许构建更大的集群。

  • 增加了Erasure Coding(纠删码),提高了存储效率,降低了存储成本。

  • 改进了YARN资源管理模型,增加了对Docker容器的支持。

优点:

  • 更高的数据存储效率:通过Erasure Coding,相比Hadoop 2使用的三份数据复制,可以节省大量的存储空间。

  • 更大的集群规模:支持更多的数据节点和更大的集群。

  • 更强的资源管理:引入了更多的调度策略和容器化支持,使得资源管理更加灵活。

为什么这样演进

Hadoop的这些演进主要是为了解决早期版本中存在的问题,如资源管理效率低下、系统可扩展性差、对新类型计算模型支持不足等。随着数据处理需求的多样化和技术的发展,Hadoop不断演进以满足更高效、更可靠、更灵活的大数据处理需求。

53accebb0260365840cae0463efc105f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/637834.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Hadoop】-HDFS的Shell操作[3]

目录 前言 一、HDFS集群启停命令 1.一键启停脚本可用 2.独立进程启停可用 二、文件系统操作命令 1、创建文件夹 2、查看指定目录下内容 3、上传文件到HDFS指定目录下 4、查看HDFS文件内容 5、下载HDFS文件 6、拷贝HDFS文件 7、追加数据到HDFS文件中 8、HDFS数据移…

【Python性能优化】list、array与set

list、array与set 详述测试代码 详述 本文对比 list 与 set 在插入和取值时的性能差异,以提供一条什么时候该选择什么数据类型的建议。先上结果: array 与 list 的不同: 内存方面 array 是 C array 的包装,它直接存储数据&#xf…

Sulley入门教学——简介、安装(Win7、VMware)

1、简介 Sulley 是由 Pedram Amini 和 Aaron Portnoy 开发的开源工具。它以 Python 编写,可以轻松地在不同平台上部署和使用。Sulley 提供了一个灵活且功能强大的框架,允许用户定义协议消息的结构、字段类型、边界条件和模糊测试策略。用户可以使用 Sul…

打破国外垄断|暴雨发布纯血国产电脑

要说现在国产手机这边已然进入纯自研模式,但电脑这边却还是仍未打破国外技术垄断。但就在刚刚,暴雨发布自研架构台式机open Station X ,这是纯血鸿蒙系统之后国产又一款纯血产品发布!标志的我们已经彻底打破西方在硬件及软件方面的…

每天五分钟机器学习:神经网络模型参数的选择

本文重点 在深度学习和人工智能的浪潮中,神经网络作为其中的核心力量,发挥着举足轻重的作用。然而,神经网络的性能并非一蹴而就,而是需要经过精心的参数选择和调优。 神经网络由大量的神经元组成,每个神经元之间通过权重进行连接。这些权重,以及神经元的偏置、激活函数…

Linux——进程基本概念中篇

Linux——进程基本概念中篇 文章目录 Linux——进程基本概念中篇一、通过系统调用创建进程——fork1.1 fork的理解1.2 fork的返回值 二、进程状态2.1 运行状态2.2 睡眠状态和休眠状态2.3 停止状态和死亡状态2.4 僵尸进程2.5 孤儿进程2.6 前台和后台进程 三、进程优先级3.1 查看…

基于单片机的羽毛球计分器(含proteus仿真和程序)

目录 完整文本及仿真、程序可私信我获取 前言 第一章 设计任务及方案 1.1 设计任务 1.2 总体设计分析 1.3 功能模块方案设计 1.4 方案确定 第二章、硬件设计 2.1 AT89C51 单片机芯片介绍 2.1.1 主要特性 2.1.2 管脚说明 2.1.3 元件清单 2.2 电路介绍 2…

伪分布Hadoop下安装Hive

一、下载并安装Mysql (1)下载mysql安装包(mysql-8.0.26-1.el7.x86_64.rpm-bundle.tar) 下载官网:MySQL :: Download MySQL Community Server (Archived Versions)https://downloads.mysql.com/archives/community/ &…

java-单列集合List详解

一、List概述 ​​​​​​​List 接口继承自 Collection 接口。这意味着所有 List 类型的对象都是 Collection 类型的对象,它们共享 Collection 接口中定义的所有方法。 List集合的特点: 1、有序:存和取得元素顺序一致 2、有索引&#xf…

9.Eureka服务发现+Ribbon+RestTemplate服务调用

order-service服务通过服务名称来代替 ip:port的方式访问user-service服务的接口。 原来的请求代码: Service public class OrderServiceImpl implements OrderService {Autowiredprivate OrderMapper orderMapper;Autowiredprivate RestTemplate restTemplate;Ov…

基于Hadoop的电商用户行为分析系统设计与实现的系统架构设计

采集层:利用Flume采集电商服务器端用户行为数据,把数据处理后发送至HDFS。 存储层:用户行为数据采集上传至HDFS存储, 导入到数据仓库Hive进行计算处理,分析结果保存至MySql数据库中。 计算层:根据分析需求建…

MacOS 文件系统种类及介绍

MacOS 文件系统种类 详细介绍 详细介绍 从图片中我们可以看到一个文件系统选择器的界面,列出了多种不同的文件系统选项。这些文件系统各有其特点和用途,以下是它们之间的主要区别: APFS:Apple File System,是苹果公司为…