开源分布式存储系统(HDFS、Ceph)架构分析

文章目录

  • 中间控制节点架构-HDFS
    • NameNode节点分析
    • DataNode节点分析
    • SecondNameNode节点分析
    • Client分析
  • 完全无中心架构-Ceph
    • Ceph Monitor分析
    • Ceph OSD分析
    • Ceph Manager分析
    • Ceph Clients分析
  • 小结
    • HDFS
      • 优点
      • 缺点
    • Ceph
      • 优点
      • 缺点
  • 参考

中间控制节点架构-HDFS

以HDFS( Hadoop Distribution File System )为代表的架构是中间控制节点架构的代表。

HDFS分布式文件系统是被设计成主从式的一种架构,集群中主要由客户端名称节点NameNode数据节点DataNode第二名称节点SecondNameNode组成。其中名称节点相当于分布式文件系统的管理者,主要用于管理文件系统命名空间及对整个集群进行控制等功能,数据节点则是文件实际存储的基本单元并在NameNode的控制下进行数据的读写和出错处理等基本操作,SecondNameNode则是用于备份NameNode的系统信息文件增强了集群抵抗单点失效的能力,客户端主要负责与NameNode与DataNode之间的通信,访问HDFS文件系统对文件进行增删查改等操作,HDFS集群中通常会包括一个NameNode节点与一个SecondNameNode节点,数据节点则会根据集群规模不同有所不同,一般的集群会有几十或着几百个数据节点规模大的甚至可以达到上千个,它的基本架构图如下图所示:

image-20230918110416861

在HDFS系统中,通常会有一个NameNode、一个SecondNameNode、多个DataNode和多个HDFS Client。各个结点都会以守护进程的方式运行在以网络分布的不同服务器上。其中,NameNode相当于集群的管理者,DataNode是集群的基本存储单元,客户端用于访问HDFS,SecondNameNode会定期合并NameNode的元数据信息。

NameNode节点分析

NameNode的作用:

  • 保存文件的元数据信息。NameNode主要负责存储文件系统的命名空间元数据,它将决定数据块映射到哪个DataNode上。
  • 通过心跳机制检测DataNode的运行状态。NameNode启动之后将运行一个监听DataNode消息的进程,在DataNode运行之后它将会连接NameNode并会定期的向NameNode发送一个HeartBeat(即心跳)报告,将运行状态信息发送给NameNode,NameNode将根据这些信息来确定集群中的机器运行状态和数据块的分布状态,发送的时间默认是20分钟当超过这个时间没有接收到节点的信息时则认为该节点出现了故障。

NameNode是整个HDFS架构中最为核心的部分,它维护了整个文件系统的文件目录树和文件、目录的元数据信息与文件数据快索引,这些信息以两种形式存储在NameNode的本地文件系统中:一种是命名空间镜像FSImage(即文件系统镜像),另一种是EditLog(即命名空间的编辑日志)。

DataNode节点分析

DataNode的作用:

  • 主要负责数据块的实际复制与存储。
  • 定期向NameNode节点汇报自身运行状态。

每个数据结点都会运行一个守护进程,它主要负责将HDFS中的数据块写入到本地文件系统中的实际物理文件中和从这些文件中读取数据块。在客户端要对文件内容进行操作时,先由NameNode节点通知客户端每个数据块存储在哪个数据结点上,然后客户端直接与DataNode上的守护进程进行通信来进行数据块的读写操作。

DataNode在本地文件中主要保存了数据块与数据块元文件,其中数据块元文件存储的是数据块的校检信息,DataNode在运行之后,将会定期的对数据块文件进行扫描并将计算出的校检信息与数据块元文件进行比较,如果出现不符则认为数据块已经损坏需要进行恢复,数据块的恢复将由BadBlockReport机制实现,DataNode将信息上报给NameNode,NameNode则将数据块信息记录到恢复队列中并在之后通知其它DataNode进行失效数据块的复制,这样就保障了每一个数据块都有规定的副本数,提高了系统的可靠性。

HDFS文件系统中默认的副本数量是3个,数据块的3个副本分布于不同的DataNode上,当这些数据节点上的任意一个崩溃或者不能网络进行访问时可以通过其它节点来进行文件的操作,名称节点的元数据与数据节点上的数据块由下图所示:

image-20230918144511023

SecondNameNode节点分析

SecondNameNode的作用:

  • SecondNameNode在HDFS中的作用是定期和NameNode通信来备份NameNode中的FSImage、EditLog等系统文件,这样就保障了NameNode在发生故障时整个系统命名空间和元数据信息的完整性。

SecondNameNode与名称节点NameNode最大的区别就是它不接受和记录HDFS的任何实时变化,它只是根据系统配置的间隔不断地获得HDFS中某一时间点的命名空间的镜像与编辑日志,并将其合并成一个新的命名空间镜像,这个新的镜像文件会上传到NameNode上替换先前的的命名空间镜像并清空日志文件,这样SecondNameNode为NameNode提供了一个简单的Checkpoint(即检查点)机制从而避免了集群运行时间过长编辑日志过大导致的NameNode启动时间过长的问题。

image-20230918151517680

Client分析

客户端的主要工作就是和NameNode与DataNode进行交互从而进行文件的基本操作,HDFS文件系统提供了多种的客户端交互手段,主要包括:Java API、命令行接口、C 语言库、Thrift 接口与用户文件系统等。


完全无中心架构-Ceph

以Ceph为代表的架构是完全无中心架构的代表。

Ceph存储系统的设计目标是提供高性能、高可扩展性、高可用的分布式存储服务。它采用RADOS(Reliable Autonomic Distributed Object Store)在动态变化和异构的存储设备集群上,提供了一种稳定、可扩展、高性能的单一逻辑对象存储接口和能够实现节点自适应和自管理的存储系统。数据的放置采取CRUSH算法,客户端根据算法确定对象的位置并直接访问存储节点,不需要访问元数据服务器。CRUSH算法具有更好的扩展性和性能。本节介绍了Ceph的集群架构、数据放置方法以及数据读写路径,并在此基础上分析其性能特点和瓶颈。

RADOS可提供高可靠、高性能和全分布式的对象存储服务。对象的分布可以基于集群中各节点的实时状态,也可以自定义故障域来调整数据分布。块设备和文件都被抽象包装为对象,对象则是兼具安全和强一致性语义的抽象数据类型,因此RADOS可在大规模异构存储集群中实现动态数据与负载均衡。

对象存储设备(Object Storage Device,OSD)是RADOS集群的基本存储单元,它的主要功能是存储、备份和恢复,数据,并与其他OSD之间进行负载均衡和心跳检查等。一块硬盘通常对应一个OSD,由OSD对硬盘存储进行管理,但有时一个分区也可成为一个OSD,每个OSD皆可提供完备和具有强一致性的本地对象存储服务。MDS(Metadata Server)是元数据服务器,向外提供CephFS在服务时发出的处理元数据的请求,将客户端对文件的请求转化为对对象的请求。RADOS中可以有多个MDS分担元数据查询的工作。

如下图所示,一个RADOS集群由大量OSD、0~n个MDS和少数几个Monitor组成。

image-20230918213514660

Ceph存储集群由多种类型的守护进程组成:

Ceph Monitor分析

Ceph Monitor维护集群的主副本映射、Ceph集群的当前状态以及处理各种与运行控制相关的工作。在Ceph集群中配置多个Ceph Monitor可确保在其中一个Ceph Monitor守护进程或其主机发生故障时的可用性。

每个Monitor节点上都运行守护进程(ceph-mon)。该守护进程可维护集群映射的主副本,包括集群拓扑图。这意味着Ceph客户端只需要连接到一个Monitor节点并检索当前的集群映射,即可确定所有Monitor和OSD节点的位置。

  • Ceph Monitor的主要作用是维护集群的数据主副本映射关系。同时,它为每个组件维护一个单独的信息图,包括OSD Map、MON Map、MDS Map、PG Map和CRUSH Map等。所有集群节点均向Monitor节点报告,并共享有关其状态的每个更改信息。Monitor不存储实际数据。存储数据是OSD的工作。

  • Ceph Monitor还提供身份验证和日志服务。Monitor将监控服务中的所有更改信息写入单个Paxos,并且Paxos更改写入的K/V存储,以实现强一致性。Ceph Monitor使用K/V存储的快照和迭代器(LevelDB数据库来执行整个存储的同步)。换句话说,Paxos是Ceph Monitor的核心服务,专门负责数据一致性工作。

Paxos服务解决的问题正是分布式一致性问题,即一个分布式系统中的各个进程如何就某个值(决议)达成一致。Paxos服务运行在允许有服务器宕机的系统中,不要求消息的可靠传递,可容忍消息丢失、延迟、乱序和重复。它利用大多数机制保证了 2 N + 1 2N+1 2N+1 的容错能力,即 2 N + 1 2N+1 2N+1 个节点的系统中最多允许 N N N 个节点同时出故障。

Ceph OSD分析

  • 利用Ceph节点上的CPU、内存和网络进行数据复制、纠错、重新平衡、恢复、监控和报告等

  • Ceph OSD守护进程检查自己的状态和其他OSD的状态,并向Ceph Monitor报告

通常每个磁盘对应一个OSD守护进程。

Ceph Manager分析

维护PG(放置组)有关的详细信息,代替Ceph Monitor处理元数据和主机元数据,能显著改善大规模集群的访问性能。Ceph Manager处理许多只读Ceph CLI的查询请求,例如放置组统计信息。Ceph Manager还提供了RESTful API。

  • Ceph Manager从整个集群中收集状态信息。Ceph Manager守护进程和Ceph Monitor守护进程一起运行,提供了附加的监控功能,并与外部监控系统和管理系统连接。

  • 它还提供其他服务(如Ceph DashBoard UI)、跟踪运行时指标,并通过基于Web浏览器和仪表盘和RESTful API公开集群信息。

将Ceph Manager和Ceph Monitor放在同一节点上运行比较明智,但不强制。

Ceph Clients分析

Ceph客户端接口负责和Ceph集群进行数据交互,包括数据的读写。客户端与Ceph集群进行通信需要以下数据:

  • Ceph集群配置文件或集群的名称(通常命名为ceph)、Monitor地址
  • 存储池名称
  • 用户名和密钥路径

Ceph客户端维护对象ID和存储对象的存储池名称。为了存储和检索数据,Ceph客户端访问Ceph Monitor并检索最新的Cluster Map副本,然后由Ceph客户端向Librados提供对象名称和存储池名称。Librados会使用CRUSH算法为要存储和检索的数据计算对象的放置组和主OSD。客户端连接到主OSD,并在其中执行读取和写入操作。


小结

HDFS

优点

  1. 容错性:数据自动保存多个副本。通过增加副本的形式,提高容错性。其中一个副本丢失以后,可以自动恢复。

  2. 可以处理大数据:能够处理数据规模达到GB、TB甚至PB级别的数据;能够处理百万规模以上的文件数量。

  3. 可以构建在廉价的机器上,通过多副本机制,提高可靠性。

缺点

  1. 不适合低延时数据访问:比如毫秒级的存储数据,是做不到的。

  2. 无法高效对大量小文件进行存储:存储大量小文件的话,它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的。同时,小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。

  3. 不支持并发写入、文件随机修改:一个文件只能有一个写,不允许多个线程同时写。仅支持数据append(追加),不支持文件的随机修改。

Ceph

优点

  1. 高性能。针对并发量大的异步IO场景,随着集群规模的扩大,Ceph可提供近线性的性能增长。
  2. 高可扩展性。Ceph通过CRUSH算法来实现数据寻址。这种方法避免了元数据访问的瓶颈,使集群的存储容量可以轻易扩展至PB级,甚至EB级。
  3. 统一存储,适用范围广。Ceph支持块、文件和对象存储,可满足多种不同的需求。底层的RADOS可扩展并支持不同类型的存储服务。
  4. 支持范围广。 自2012年起,Linux内核开始支持Ceph,目前Ceph可以在几乎所有主流的Linux发行版和其他类UNIX系统上运行。自2016年起,Ceph开始支持ARM架构,同时也可适用于移动、低功耗等领域,其应用场景覆盖了当前主流的软硬件平台。

缺点

  1. Ceph的数据分布算法CRUSH在实际环境中存在一些问题,包括扩容时数据迁移不可控、数据分布不均衡等。这些问题影响了Ceph性能的稳定性。
  2. Ceph的架构复杂,抽象层次多,时延较大。虽然Ceph采用面向对象的设计思想,但其代码内对象间的耦合严重,导致不同版本间的接口不兼容。针对不同版本的性能优化技术和方法也互相不兼容。
  3. Ceph是一个通用的分布式存储系统,可应用于云计算、大数据和高性能计算等领域。针对不同的访问负载特征,Ceph还有较大的性能提升和优化空间。

参考

  • 《基于HDFS分布式存储技术研究与优化》
  • 《Ceph分布式存储系统性能优化技术研究综述》
  • 《Ceph企业级分布式存储:原理与工程实践》
  • https://zhuanlan.zhihu.com/p/186024598
  • https://zhuanlan.zhihu.com/p/524792408

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/112446.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无涯教程-JavaScript - RADIANS函数

描述 RADIANS函数将度数转换为弧度。度和弧度之间的转换是通过以下关系式计算的 180度π弧度 其中π是数学常数,PI3.14159265358979 ... 语法 RADIANS (angle)争论 Argument描述Required/OptionalAngleAn angle in degrees that you want to convert.Required 适用性 E…

Linux 信号相关

int kill(pid_t pid, int sig); -功能:给某个进程pid 发送某个信号 参数sig可以使用宏值或者和它对应的编号 参数pid: >0 ;将信号发给指定的进程 0;将信号发送给当前的进程组 -1;发送给每一个有权限接受这个信号的…

C数据结构二.练习题

一.求级数和 2.求最大子序列问题:设给定一个整数序列 ai.az..,a,(可能有负数).设计一个穷举算法,求a 的最大值。例如,对于序列 A {1,-1,1,-1,-1,1,1,1,1.1,-1,-1.1,-1,1,-1},子序列 A[5..9](1,1,1,1,1)具有最大值5 3.设有两个正整数 m 和n,编写一个算法 gcd(m,n),求它们的最大公…

Linux static_key原理与应用

文章目录 背景1. static-key的使用方法1.1. static-key定义1.2 初始化1.3 条件判断1.4 修改判断条件 2、示例代码参考链接 背景 内核中有很多判断条件在正常情况下的结果都是固定的,除非极其罕见的场景才会改变,通常单个的这种判断的代价很低可以忽略&a…

ipad录屏在哪?学会这些方法,轻松找到录屏功能

随着科技的不断发展,ipad已经成为人们日常生活中不可或缺的工具之一,它不仅能够帮助我们处理各种任务,还可以用来记录和分享有趣的瞬间。在本篇文章中,我们将详细介绍ipad录屏在哪里,为您提供更多录制和编辑视频的可能…

【LeetCode热题100】--15.三数之和

15.三数之和 注意:最后答案中不能包含重复的三元组 使用排序双指针 可以使用三重循环枚举三元组,但是需要哈希表进行去重操作,得到不包含重复三元组的最终答案,消耗量大量的时间和空间 对于不重复的本质,保持三重循环…

sudo+vim+g++/gcc+makefile+进度条

目录 一、信任表中加入指定的普通用户(使其能使用sudo) 二、vim的使用 (一)基本概念 1. 正常/普通/命令模式(Normal mode) 2. 插入模式(Insert mode) 3. 末行模式(last line mode) (二)vim正常模式…

怎么防止360安全卫士修改默认浏览器?

默认的浏览器 原先选项是360极速浏览器(如果有安装的话),我这里改成了Chrome。 先解锁 才能修改。

[SQL Server]在应使用条件的上下文(在 ‘)‘ 附近)中指定了非布尔类型的表达式,查询时间大于某个数值时

这种条件查询条件里面不要有空格&#xff0c;一个也不要有 这种条件查询条件里面不要有空格&#xff0c;一个也不要有 $giftsDb::table(drawgot)->where(disabtime,<,"2030-01-03")->select();

【WFA】【Enhanced open】CT_OWE_DHgroup_STA_NoAssociation-AllGroupsRejected_10338_1

测试报告如下: Fail的关键log: 当连接到ap失败时,驱动程序将尝试连接到ap。如果ap仅支持Group 20,并且sta支持Group 19、20。sta将首先尝试Group 19,ap将通过状态代码77拒绝它。然后驱动程序将尝试连接Group 19的ap,仍然达到最大重试次数。那么sta将尝试第Group 20 。 …

RT-Thread I/O设备模型框架

I/O 设备模型框架 RT-Thread提供了一套简单的I/O设备模型框架&#xff0c;如图所示&#xff0c;它位于硬件和应用程序之间&#xff0c;共分成三层&#xff0c;从上到下分别是I/O设备管理层、设备驱动框架层、设备驱动层。 应用程序通过I/O设备管理接口获得正确的设备驱动&…

git工具下载和安装

(1)从git官网下载安装包 然后安装 https://git-scm.com/downloads (2)git 学习参考官方的资料 https://git-scm.com/book/en/v2