【大数据】HDFS概述(学习笔记)

一、文件系统、分布式文件系统

1、传统文件系统

文件系统是一种存储组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作。

文件系统使用树形目录抽象逻辑概念代替了硬盘等物理设备使用数据块的概念。

数据:指存储的内容本身。这些数据底层是存储在存储介质上的,用户只需要基于目录树进行增删改查即可,实际针对数据的操作由文件系统完成。

元数据(解释性数据):记录数据的数据。

文件系统元数据:指文件大小、最后修改时间、底层存储位置、底层存储位置、属性、所属用户、权限等信息。

2、分布式文件系统

1)分布式存储

单机纵向扩展:磁盘不够加磁盘,有上限瓶颈限制

多机横向扩展:机器不够加机器,理论上无限扩展

2)元数据记录

元数据记录下文件及其存储位置信息,快速定位文件位置

3)分块存储

文件分块存储在不同机器,针对块并行操作提高效率

4)副本机制

不同机器设置备份,冗余存储,保障数据安全

二、HDFS简介

HDFS:Hadoop分布式文件系统。

  • HDFS作为大数据生态圈最底层的分布式存储服务而存在。
  • 大数据首先要解决的问题就是海量数据的存储问题
  • 分布式说明HDFS是横跨在多台计算机上的存储系统。
  • HDFS是一种能够在普通硬件上运行的分布式文件系统,它是高度容错的。
  • HDFS使用多台计算机存储文件,并且提供统一的访问接口

三、HDFS设计目标

HDFS具有故障检测和自动快速恢复。

HDFS用于批处理,而不是用户交互式的。(相较于数据访问的反应时间,更注重数据访问的高吞吐量。)

HDFS支持大文件,提供很高的聚合数据带宽。

write-one-read-many访问模型,文件不允许修改。简化了数据一致性问题,提高数据吞吐量。

移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效。将计算移动到数据附近,比之将数据移动到应用所在显然更好。

HDFS可从一个平台轻松移植到另一个平台。

四、HDTS重要特性

1、主从架构

HDFS集群是标准的master/slave主从架构集群。

HDFS集群是有一个Namenode和一定数目的Datanode组成。

Namenode是HDFS主节点,Datanode是HDFS从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。

2、分块存储

HDFS中的文件在物理上是分块存储的,默认大小是128M ,不足128M则本身就是一块。

3、副本机制

文件的所有block都会有副本。副本系数可以在文件创建的时候指定,也可以在之后通过命令改变。

副本数由参数dfs.replication控制,默认值是3,也就是会额外再复制2份 ,连同本身总共3份。

4、元数据记录

1、文件自身属性信息:文件名称 权限,修改时间,文件大小,复制因子,数据块大小。

2、文件块位置映射信息:记录文件块和DataNode之间的映射信息,即哪个块位于哪个节点上。

5、目录树结构 Namespace

HDFS支持传统的层次型文件组织结构。

Namenode负责维护文件系统的namespace名称空间 ,任何对文件系统名称空间或属性的修改都将被Namenode记录下来。

HDFS会给客户端提供一个统一的抽象目录树

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/133090.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

what?es数据偏移了8小时...

今天搞监控大屏的时候,测试突然提出一个问题说,查一段时间的数据,时间曲线返回的日期有时候会比查询时间多,翻看代码后,初步定位为es的时区问题,后来将时间曲线的直方图聚合增加时区后,返回数据…

H3C交换机的40G堆叠线 ,可以插在普通光口做堆叠吗?

环境: S6520X-24ST-SI交换机 H3C LSWM1QSTK2万兆40G堆叠线QSFP 问题描述: H3C交换机的40G堆叠线 ,可以插在普通光口做堆叠吗? 解答: 1.H3C交换机的40G堆叠线通常是用于连接堆叠模块或堆叠端口的。这些堆叠线通常使…

Centos7使用nginx搭建rtmp流媒体服务器

为什么写这篇文章 2023年10月份,公司系统中有个需求,需要使用摄像头记录工程师在维修设备时的工作状态,找到了一家做执法记录仪的厂商,通过厂商发过来的文档了解到该执法记录仪支持通过rtmp协议推流至服务器,第一次接…

数据库静态脱敏和动态脱敏解决方案 安当加密

安当KDPS数据保护系统的数据库脱敏功能是一种安全策略,它可以将数据库中的敏感数据进行脱敏处理,使得数据在被访问时不会泄露敏感信息。该功能主要具有以下特点: 可扩展性:可以支持多种数据库类型,如Oracle、MySQL、S…

地球系统模式的应用与进阶丨CESM丨Linux丨CLM丨代码修改等

目录 第一部分 运行前的准备 第二部分 Linux系统及编译 第三部分 CESM原理、结构 第四部分 CESM程序获取、结构及其功能 第五部分 CESM 移植、安装及快速运行 第六部分 CESM 配置选项及数据文件制备 第七部分 CESM单模块运行——以CLM为例 第八部分 CESM 的部分耦合运行…

【基础篇】三、Flink集群角色、系统架构以及作业提交流程

文章目录 1、集群角色2、部署模式3、Flink系统架构3.1 作业管理器(JobManager)3.2 任务管理器(TaskManager) 4、独立部署会话模式下的作业提交流程5、Yarn部署的应用模式下作业提交流程 1、集群角色 Flink提交作业和执行任务&…

Spring编程常见错误50例-Spring AOP常见错误(上)

Spring AOP常见错误(上) this调用的当前类方法无法被拦截 问题 假设当前开发负责电费充值的类,同时记录下进行充值的时间(此时需要使用到AOP),并提供电费充值接口: Service public class ElectricService {public …

SpringBoot (1)

目录 1 入门案例 1.1 环境准备 1.2 编写pom.xml 1.3 编写入口程序 1.4 编写接口 1.5 编写配置 1.6 快速部署 1.6.1 打jar包 1.6.2 部署 1.7 访问接口 2 全注解开发 2.1 常用注解 2.2 属性绑定注解 2.2.1 注册组件 2.2.2 ConfigurationProperties(prefix"te…

SQLAlchemy 使用封装实例

类封装 database.py #! /usr/bin/env python # -*- coding: utf-8 -*-import sys import json import logging from datetime import datetimefrom core.utils import classlock, parse_bool from core.config import (MYSQL_HOST,MYSQL_PORT,MYSQL_USER,MYSQL_PASS,MYSQL_DA…

黑马JVM总结(三十二)

(1)类加载器-线程上下文1 使用的应用程序类加载器来完成类的加载,不是用的启动类加载器,jdk在某些情况下要打破,双亲委派的模式,有时候需要调用应用程序类加载器来完成类的加载,否则有些类它是找…

从读不完一篇文章,到啃下20万字巨著,大模型公司卷起“长文本”

点击关注 文丨郝 鑫 编丨刘雨琦 4000到40万token,大模型正在以“肉眼可见”的速度越变越“长”。 长文本能力似乎成为象征着大模型厂商出手的又一新“标配”。 国外,OpenAI经过三次升级,GPT-3.5上下文输入长度从4千增长至1.6万token&…

黑马JVM总结(三十一)

(1)类加载器-概述 启动类加载器-扩展类类加载器-应用程序类加载器 双亲委派模式: 类加载器,加载类的顺序是先依次请问父级有没有加载,没有加载自己才加载,扩展类加载器在getParent的时候为null 以为Boots…