开源方案 #HDFS

加速解析FSImage

一、背景在KA系统中需要解析FSImage来对整个HDFS系统分析其元数据（INode），来将数据可视化展示以及治理合并过多的小文件。从代码中可以看到，使用OIV解析时分为三步: loadDirectories(fin, sections, summary, conf); loadINodeDi

Administrator Published on 2023-10-11

开源方案 #HDFS

HDFS-13522_Add federated nameservices states to client protocol and propagate it

一、背景本文作为前文Router-based Federation的补充，顺带分析Observer状态的NameNode是如何分担读请求的。我们所知HA架构中的HDFS使用Standby NameNode来作为Active NameNode的一个热备份，在故障转换时可以快速接管Client的请求

Administrator Published on 2023-10-10

源码分析 #HDFS

Router-based Federation

一、背景 Hadoop 社区为了解决 HDFS 横向扩展的问题，早前的版本中实现了基于 ViewFs 的 Federation 架构，而在最新的 Hadoop 版本中，社区又实现了基于 Router 的 Federation架构，并且在这个架构之上还实现了许多增强集群管理能力的特性。Router 将

Administrator Published on 2023-10-09

源码分析 #HDFS

对于慢节点（盘）的处理

一、背景什么是慢节点？随着HDFS集群规模的不断增长、服务器使用寿命的缩减，在大规模集群中性能退化节点的出现是必然的，我们将这样的节点称为慢节点。慢节点问题是大规模集群中的常见问题，其影响范围可以波及整个集群，会对集群的吞吐能力造成严重的影响。 HDFS作为大数据平台的存储底座，慢节点问题将对上

Administrator Published on 2023-10-05

#HDFS

HDFS读文件流程

一、选取合适的Block位置并排序 block位置其实就是指向某一DataNode，所以也可以理解为找到一系列合适的DataNode列表。 //常规使用客户端向HDFS读取数据的代码片段，接下来来以此分析 FSDataInputStream is = dfs.open(new Path("/a/b/

Administrator Published on 2023-10-02

源码分析 #HDFS

HDFS写文件流程

一、构建Pipeline 在从客户端提交写入文件的请求后，NameNode需要选择出一些适合的DataNode，将这些DataNode放入一个Pipeline中。NameNode会与Pipeline中的第一个DataNode交互（发送Packet），接下来第一个DataNode会将Packet发送到

Administrator Published on 2023-09-27

源码分析 #HDFS

DataNode启动流程

一、 DataNode类的注释 /********************************************************** * DataNode is a class (and program) that stores a set of * blocks for a

Administrator Published on 2023-09-26

Menu

All Tags

加速解析FSImage

HDFS-13522_Add federated nameservices states to client protocol and propagate it

Router-based Federation

对于慢节点（盘）的处理

HDFS读文件流程

HDFS写文件流程

DataNode启动流程

Iceberg中内部索引增强

事件驱动模型

让Spark使用起来更舒适的几个开源方案

数据湖技术之Iceberg

HDFS-13522_Add federated nameservices states to client protocol and propagate it

Flink中的StreamGraph，JobGraph，ExecutionGraph是如何一步一步转变的

Router-based Federation

Flink几种提交任务的模式及源码分析

Spark Shuffle之SortShuffleWriter（转）

推测执行