Apache Atlas原理简述 一、Apache Atlas是什么 Atlas是一组可扩展的核心基础治理服务,使企业能够有效和高效地满足其在Hadoop中的合规性要求,并允许接入整个公司数据的生态系统。 Apache Atlas为组织提供开放的元信息管理和治理能力,以构建其数据资产的目录,对这些资
Flink中的StreamGraph,JobGraph,ExecutionGraph是如何一步一步转变的 一、StreamGraph 在用户自定义的Flink Java应用程序中,经常会用到多个算子以流式的方式来对source进行计算最后sink到另一个地方,那么从用户程序角度来看其实Flink会初
Flink几种提交任务的模式及源码分析 一、模式 1. Yarn Session模式 此模式下需要提前使用flink命令预先创建一个Yarn上的常驻应用,后续可以指定JobManager的地址向集群提交任务。 # 创建flink yarn session集群 ./bin/yarn-session.s
一、背景 Iceberg到底解决了什么问题? 传统Hive数仓存在的问题 一言以蔽之:Hive的表格式主要问题的关键是在文件级别跟踪表中的数据。他们不是一个指向一个目录或一组目录的表,而是将一个表定义为一个规范的文件列表。 解释如下: Hive的Table Format的状态和两个地方有关:Hive
Min-Max索引 Iceberg默认提供了MinMax索引,在Iceberg表的Manifest文件中,存储了数据文件每个列的Min/Max值, 使用Spark等引擎访问Iceberg表的时候,在分布式任务初始化阶段,会从Iceberg表的Manifest文件中获取文件列表及相关信息,并使用SQL
ShuffleMapTask整体流程 Spark中负责具体的Shuffle Map端执行任务的逻辑在ShuffleMapTask,当任务提交后,Executor会将任务交给处理任务的线程池,最终调用的是Task中的runTask方法,ShuffleMapTask的具体实现步骤如下: 首先反序列化出T
Shuffle涉及到三方面问题:Shuffle write写过程,中间数据记录过程以及Shuffle read读过程,上面几节我们分析了write和中间记录过程,本文将聚焦在Shuffle read部分。ShffuleRead什么时候进行数据读取?ShuffleMap产生的数据如何拉取过来?拉取过来
一、Parquet文件的格式拆解 概念 Row Group A logical horizontal partitioning of the data into rows. There is no physical structure that is guaranteed for a row gro
一、背景 在Yarn中为了高效的处理一个任务的生命周期,其采用了基于事件驱动的并发模型,该模型能够大大增加并发性,从而提高系统整体性能。该模型将处理逻辑抽象成事件和对应的事件带调度器,并将每类事件的处理过程分割成多个步骤,用有限状态机表示。该模型图如下: 这张图反映了AsyncDispatcher的
一、针对Spark Thrift Server Spark Thrift Server是Apache Spark社区基于HiveServer2实现的一个Thrift服务,旨在无缝兼容HiveServer2。它通过JDBC接口将Spark SQL的能力以纯SQL的方式提供给终端用户。这种“开箱即用”的