每周总结1

news/2024/11/15 15:44:38/文章来源:https://www.cnblogs.com/wcy1111/p/18300609

 

 

  • Hadoop HDFS(核心):Hadoop 分布式存储系统;
  • Yarn(核心):Hadoop 2.x版本开始才有的资源管理系统;
  • MapReduce(核心):并行处理框架;
  • HBase:基于HDFS的列式存储数据库,它是一种 NoSQL 数据库,非常适用于存储海量的稀疏的数据集;
  • Hive:Apache Hive是一个数据仓库基础工具,它适用于处理结构化数据。它提供了简单的 sql 查询功能,可以将sql语句转换为 MapReduce任务进行运行;
  • Pig:它是一种高级脚本语言。利用它不需要开发Java代码就可以写出复杂的数据处理程序;
  • Flume:它可以从不同数据源高效实时的收集海量日志数据;
  • Sqoop:适用于在 Hadoop 和关系数据库之间抽取数据;
  • Oozie:这是一种 Java Web 系统,用于Hadoop任务的调度,例如设置任务的执行时间和执行频率等;
  • Zookeeper:用于管理配置信息,命名空间。提供分布式同步和组服务;
  • Mahout:可扩展的机器学习算法库。

 

HDFS 框架概述

① NameNode(nn): 存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块所在的 DataNode 等。
② DataNode(dn): 在本地文件系统存储文件块数据,以及块数据校验和。
③ Secondary DataNode(2nn): 用来监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS 元数据的快照。
———————————————

Hadoop MapReduce 是一种编程模型,它是 Hadoop 最重要的组件之一。它用于计算海量数据,并把计算任务分割成许多在集群并行计算的独立运行的 task。

 

MapReduce 是 Hadoop的核心,它会把计算任务移动到离数据最近的地方进行执行,因为移动大量数据是非常耗费资源的。

  1. 存储:Hadoop使用Hadoop Distributed File System(HDFS)来存储数据。数据被分割成多个块,并复制到集群中不同的节点上,以确保容错性和高可用性。

  2. 分析:Hadoop使用MapReduce编程模型来处理数据。在MapReduce中,计算任务被分成两个阶段:Map(映射)和 Reduce(归约)。Map阶段将数据分割成若干小块进行处理,Reduce阶段将Map阶段的结果合并起来以生成最终的输出。

  3. 资源调度:Hadoop使用YARN(Yet Another Resource Negotiator)作为资源管理器,负责集群资源的分配和调度。YARN可以根据应用程序的需求动态分配资源,并监控任务的执行情况。

  4. 链接:Hadoop生态系统中有许多工具和组件,如Hive、Pig、Spark等,可以与Hadoop集成,使用户能够进行更复杂的数据处理和分析工作。

总的来说,Hadoop的工作方式通过数据存储、并行计算和资源管理,实现了对大规模数据集的高效处理和分析。

hadoop主从工作方式

主节点(Master)负责整个集群的管理和协调工作,它通常负责资源的分配、任务调度、监控和故障处理。主节点还负责维护集群的元数据信息和整体的状态信息。

从节点(Slave)负责执行主节点分配给它们的任务,从节点通常负责存储数据和执行计算任务。从节点会向主节点汇报自己的状态信息,接受主节点的指令并按照指令执行任务。

  虚拟机以及Hadoop 的安装耗费了我三天!!!!!!!

太难了

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/743232.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第二周进度报告

这一周主要学习了Java和数据结构的基础知识 其中Java主要学习了数组的使用,方法的概念与使用,使用Java语言完成一些简单的算法(质数判断),二维数组 ,以及Java语言面向对象的知识,以及学习了封装 数据结构继续学习了顺序表以及链表的各种功能的实现,以及循环链表和双向链表 接下…

Spring MVC 中 HttpMessageConverter 转换器

1. Spring MVC 中 HttpMessageConverter 转换器 @目录1. Spring MVC 中 HttpMessageConverter 转换器2. 补充:什么是 HTTP 消息3. 转换器3.1 转换器转换的是什么4. Spring MVC中的 AJAX 请求5. @ResponseBody 将服务器端的 return 返回值转化为“字符串(JSON格式的字符串)”再…

暑假集训 第一间

身体集训了,但是脑子没跟上(7.11 上午 唐诗名校联考也是考完了 看得出来学校很重视这次考试啊 答题卡都印的黑白的 ……你说得对,但是请你先赏析一下微醺 不过这并不能影响我的发挥 成功的一张卷子也没做完 😅 下午 本来 huge 是想让我们去教室听讲评的 然而生奥的都去集训…

第二周学习报告

又经过了一周的学习,今天对本周学习进行总结 本周安装了IDEA,了解并学习了相关知识。还学习了Java中键盘录入、运算符、判断和循环的用法。 IDEA IDEA全称IntelliJ IDEA,是java编程语言的集成开发环境,它广泛应用于软件开发领域。 IDEA官网:https://www.jetbrains.com/ide…

C++11标准库chrono、future、 atomic、condition_variable、mutex、thread梳理 (5万字)

C++11标准库 、shared_future、async、packaged_task、promise、future、<chrono> C++11中提供了日期和时间相关的库chrono。 chrono库主要包含三种类型的类:时间间隔duration、时钟clocks、时间点time point。 时间间隔duration常用类成员duration表示一段时间间隔,用…

Vulnhub靶场 | DC系列 | DC-3

DC-3 环境搭建靶机镜像下载地址:https://vulnhub.com/entry/dc-32,312/ 需要将靶机和 kali 攻击机放在同一个局域网里; 本实验kali 的 IP 地址:192.168.10.146。渗透测试 使用 nmap 扫描 192.168.10.0/24 网段存活主机 ┌──(root💀kali)-[~/桌面] └─# nmap -sP 192.16…

Vulnhub靶场 | DC系列 | DC-2

DC-2 目录环境搭建 渗透测试环境搭建靶机镜像下载地址:https://vulnhub.com/entry/dc-2,311/ 需要将靶机和 kali 攻击机放在同一个局域网里; 本实验kali 的 IP 地址:192.168.10.146。渗透测试 使用 nmap 扫描 192.168.10.0/24 网段存活主机 ┌──(root💀kali)-[~/桌面] └…

llm学习:1.3 git相关

一、介绍 二、仓库 适当比较,砥砺前行

模型部署 - TensorRT Triton 学习

先介绍TensorRT、Triton的关系和区别: TensorRT:为inference(推理)为生,是NVIDIA研发的一款针对深度学习模型在GPU上的计算,显著提高GPU上的模型推理性能。即一种专门针对高性能推理的模型框架,也可以解析其他框架的模型如tensorflow、torch。 主要优化手段如下: Trito…

Vulnhub靶场 | DC系列 | DC-1

DC-1 目录环境搭建 渗透测试1. 信息收集 2. 漏洞利用 3. 提权DC ~ VulnHub VulnHub provides materials allowing anyone to gain practical hands-on experience with digital security, computer applications and network administration tasks. https://www.vulnhub.com/s…

Smart-doc:零注解侵入的API接口文档生成插件

零注解侵入的API接口文档生成插件——Smart-doc smart-doc 是一款同时支持 JAVA REST API 和 Apache Dubbo RPC 接口文档生成的工具,在业内率先提出基于JAVA泛型定义推导的理念, 完全基于接口源码来分析生成接口文档,不采用任何注解侵入到业务代码中。 你只需要按照java-doc…