Pyke's Blog 给我一双看清世界的眼眸

加速解析FSImage

一、背景 在KA系统中需要解析FSImage来对整个HDFS系统分析其元数据(INode),来将数据可视化展示以及治理合并过多的小文件。 从代码中可以看到,使用OIV解析时分为三步: loadDirectories(fin, sections, summary, conf); loadINodeDi

Administrator Administrator Published on 2023-10-11

HDFS-13522_Add federated nameservices states to client protocol and propagate it

一、背景 本文作为前文Router-based Federation的补充,顺带分析Observer状态的NameNode是如何分担读请求的。 我们所知HA架构中的HDFS使用Standby NameNode来作为Active NameNode的一个热备份,在故障转换时可以快速接管Client的请求

Administrator Administrator Published on 2023-10-10

Router-based Federation

一、背景 Hadoop 社区为了解决 HDFS 横向扩展的问题,早前的版本中实现了基于 ViewFs 的 Federation 架构,而在最新的 Hadoop 版本中,社区又实现了基于 Router 的 Federation架构,并且在这个架构之上还实现了许多增强集群管理能力的特性。Router 将

Administrator Administrator Published on 2023-10-09

对于慢节点(盘)的处理

一、背景 什么是慢节点? 随着HDFS集群规模的不断增长、服务器使用寿命的缩减,在大规模集群中性能退化节点的出现是必然的,我们将这样的节点称为慢节点。慢节点问题是大规模集群中的常见问题,其影响范围可以波及整个集群,会对集群的吞吐能力造成严重的影响。 HDFS作为大数据平台的存储底座,慢节点问题将对上

Administrator Administrator Published on 2023-10-05

HDFS读文件流程

一、选取合适的Block位置并排序 block位置其实就是指向某一DataNode,所以也可以理解为找到一系列合适的DataNode列表。 //常规使用客户端向HDFS读取数据的代码片段,接下来来以此分析 FSDataInputStream is = dfs.open(new Path("/a/b/

Administrator Administrator Published on 2023-10-02

HDFS写文件流程

一、构建Pipeline 在从客户端提交写入文件的请求后,NameNode需要选择出一些适合的DataNode,将这些DataNode放入一个Pipeline中。NameNode会与Pipeline中的第一个DataNode交互(发送Packet),接下来第一个DataNode会将Packet发送到

Administrator Administrator Published on 2023-09-27

DataNode启动流程

一、 DataNode类的注释 /********************************************************** * DataNode is a class (and program) that stores a set of * blocks for a

Administrator Administrator Published on 2023-09-26