HDFS读写数据流程和NameNode工作机制

HDFS文件系统写数据

1.步骤

文件上传步骤：

NameNode节点选择存储节点的原则：

在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据，也就是节点最近原则

节点距离 = 两个节点到达最近的共同祖先的距离总和

集群、机架、主机通过类似树型的结构连接在一起，共同祖先节点的计算方法一样。

NameNode接收到客户端发送过来的写数据请求后，会选择三个节点：

这个感知策略兼顾了数据的可靠性和效率，将数据分散在两个不同的机架，保证数据更可靠，其次第三个节点由于在同一个机架中，传输效率更高。

实际上是串行读取方式，先读取完某个数据块后再读取另一个DataNode里面的数据。由于每个节点有3个备份，具体选择哪一个节点来进行读取主要使用节点最近原则和负载均衡原则。当某个节点读取数量超过一定数量时就更换为另一个节点。

客户端的增删改请求都会追加到edits_improgress中。
2NN会不定期向NameNode发送CheckPoint请求，CheckPoint触发条件有两种：
- 定时时间到
- Edits中的数据满了
NameNode接受请求后edits追加信息会进行滚动操作，生成一个新的edits2文件，滚动期间的增删改操作会进入到edits2文件中。
edits2文件生成后，2NN会将镜像文件和edits2都拷贝到2NN中，然后加载到内存中进行合并，并生成一个新的镜像文件fsimage.chkpoint, 并拷贝回NameNode中。

在这里插入图片描述

在linux文件目录中，NN文件都存放在/opt/module/hadoop-3.1.3/data/dfs/name/current/路径下, 主要存放了如下文件

fsimage镜像文件
- hdfs oiv -p 文件类型 -i 镜像文件 -o: 必须先将镜像文件转换为特定格式后才能查看
- fsimage文件存储了文件的inode节点，包含文件名以及文件之间的父子关系
- fsimage文件没有存放dataNode节点的存储位置，开机时dataNode会主动向对应的NameNode告知其位置
edits追加文件
- 同理edits文件也需要转换类型后才能查看，命令为edits_inprogress_0000000000000000517
- NameNode保存着最新的修改信息，2NN没有。
seen_txid追加次数
VERSION版本信息(ClusterID集群ID)：必须集群ID一致，NameNode才能找到相应的DataNode.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/86907.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！