All Tags

#Flink ² #Halo ¹ #Iceberg ² # File Format ¹ #Spark ³ #Yarn ⁵ #MapReduce ¹ #HDFS ⁷

源码分析 #Spark

Spark Shuffle之SortShuffleWriter（转）

ShuffleMapTask整体流程 Spark中负责具体的Shuffle Map端执行任务的逻辑在ShuffleMapTask，当任务提交后，Executor会将任务交给处理任务的线程池，最终调用的是Task中的runTask方法，ShuffleMapTask的具体实现步骤如下: 首先反序列化出T

Administrator Published on 2024-02-10

源码分析 #Spark

Spark Shuffle之ShuffleReader（转）

Shuffle涉及到三方面问题：Shuffle write写过程，中间数据记录过程以及Shuffle read读过程，上面几节我们分析了write和中间记录过程，本文将聚焦在Shuffle read部分。ShffuleRead什么时候进行数据读取？ShuffleMap产生的数据如何拉取过来？拉取过来

Administrator Published on 2024-02-10

开源方案 #Spark

让Spark使用起来更舒适的几个开源方案

一、针对Spark Thrift Server Spark Thrift Server是Apache Spark社区基于HiveServer2实现的一个Thrift服务，旨在无缝兼容HiveServer2。它通过JDBC接口将Spark SQL的能力以纯SQL的方式提供给终端用户。这种“开箱即用”的

Administrator Published on 2023-11-28

Menu

All Tags

Spark Shuffle之SortShuffleWriter（转）

Spark Shuffle之ShuffleReader（转）

让Spark使用起来更舒适的几个开源方案

Iceberg中内部索引增强

事件驱动模型

让Spark使用起来更舒适的几个开源方案

数据湖技术之Iceberg

HDFS-13522_Add federated nameservices states to client protocol and propagate it

Flink中的StreamGraph，JobGraph，ExecutionGraph是如何一步一步转变的

Router-based Federation

Flink几种提交任务的模式及源码分析

Spark Shuffle之SortShuffleWriter（转）

推测执行