大数据调研

Apache Atlas原理简述

Apache Atlas原理简述一、Apache Atlas是什么 Atlas是一组可扩展的核心基础治理服务，使企业能够有效和高效地满足其在Hadoop中的合规性要求，并允许接入整个公司数据的生态系统。 Apache Atlas为组织提供开放的元信息管理和治理能力，以构建其数据资产的目录，对这些资

Administrator Published on 2025-01-24

源码分析 #Flink

Flink中的StreamGraph，JobGraph，ExecutionGraph是如何一步一步转变的

Flink中的StreamGraph，JobGraph，ExecutionGraph是如何一步一步转变的一、StreamGraph 在用户自定义的Flink Java应用程序中，经常会用到多个算子以流式的方式来对source进行计算最后sink到另一个地方，那么从用户程序角度来看其实Flink会初

Administrator Published on 2024-11-10

源码分析 #Flink

Flink几种提交任务的模式及源码分析

Flink几种提交任务的模式及源码分析一、模式 1. Yarn Session模式此模式下需要提前使用flink命令预先创建一个Yarn上的常驻应用，后续可以指定JobManager的地址向集群提交任务。 # 创建flink yarn session集群 ./bin/yarn-session.s

Administrator Published on 2024-10-31

大数据调研 #Iceberg

数据湖技术之Iceberg

一、背景 Iceberg到底解决了什么问题？传统Hive数仓存在的问题一言以蔽之：Hive的表格式主要问题的关键是在文件级别跟踪表中的数据。他们不是一个指向一个目录或一组目录的表，而是将一个表定义为一个规范的文件列表。解释如下： Hive的Table Format的状态和两个地方有关：Hive

Administrator Published on 2024-02-10

大数据调研 #Iceberg

Iceberg中内部索引增强

Min-Max索引 Iceberg默认提供了MinMax索引，在Iceberg表的Manifest文件中，存储了数据文件每个列的Min/Max值，使用Spark等引擎访问Iceberg表的时候，在分布式任务初始化阶段，会从Iceberg表的Manifest文件中获取文件列表及相关信息，并使用SQL

Administrator Published on 2024-02-10

源码分析 #Spark

Spark Shuffle之SortShuffleWriter（转）

ShuffleMapTask整体流程 Spark中负责具体的Shuffle Map端执行任务的逻辑在ShuffleMapTask，当任务提交后，Executor会将任务交给处理任务的线程池，最终调用的是Task中的runTask方法，ShuffleMapTask的具体实现步骤如下: 首先反序列化出T

Administrator Published on 2024-02-10

源码分析 #Spark

Spark Shuffle之ShuffleReader（转）

Shuffle涉及到三方面问题：Shuffle write写过程，中间数据记录过程以及Shuffle read读过程，上面几节我们分析了write和中间记录过程，本文将聚焦在Shuffle read部分。ShffuleRead什么时候进行数据读取？ShuffleMap产生的数据如何拉取过来？拉取过来

Administrator Published on 2024-02-10

大数据调研 # File Format

Parquet文件到底有何独特之处？

一、Parquet文件的格式拆解概念 Row Group A logical horizontal partitioning of the data into rows. There is no physical structure that is guaranteed for a row gro

Administrator Published on 2024-02-04

源码分析 #Yarn

事件驱动模型

一、背景在Yarn中为了高效的处理一个任务的生命周期，其采用了基于事件驱动的并发模型，该模型能够大大增加并发性，从而提高系统整体性能。该模型将处理逻辑抽象成事件和对应的事件带调度器，并将每类事件的处理过程分割成多个步骤，用有限状态机表示。该模型图如下：这张图反映了AsyncDispatcher的

Administrator Published on 2024-02-01

开源方案 #Spark

让Spark使用起来更舒适的几个开源方案

一、针对Spark Thrift Server Spark Thrift Server是Apache Spark社区基于HiveServer2实现的一个Thrift服务，旨在无缝兼容HiveServer2。它通过JDBC接口将Spark SQL的能力以纯SQL的方式提供给终端用户。这种“开箱即用”的

Administrator Published on 2023-11-28

Menu

Author: Administrator

Apache Atlas原理简述

Flink中的StreamGraph，JobGraph，ExecutionGraph是如何一步一步转变的

Flink几种提交任务的模式及源码分析

数据湖技术之Iceberg

Iceberg中内部索引增强

Spark Shuffle之SortShuffleWriter（转）

Spark Shuffle之ShuffleReader（转）

Parquet文件到底有何独特之处？

事件驱动模型

让Spark使用起来更舒适的几个开源方案

Iceberg中内部索引增强

事件驱动模型

数据湖技术之Iceberg

让Spark使用起来更舒适的几个开源方案

HDFS-13522_Add federated nameservices states to client protocol and propagate it

Flink中的StreamGraph，JobGraph，ExecutionGraph是如何一步一步转变的

Router-based Federation

Flink几种提交任务的模式及源码分析

Spark Shuffle之SortShuffleWriter（转）

推测执行