Apache Atlas原理简述 一、Apache Atlas是什么 Atlas是一组可扩展的核心基础治理服务,使企业能够有效和高效地满足其在Hadoop中的合规性要求,并允许接入整个公司数据的生态系统。 Apache Atlas为组织提供开放的元信息管理和治理能力,以构建其数据资产的目录,对这些资
一、背景 Iceberg到底解决了什么问题? 传统Hive数仓存在的问题 一言以蔽之:Hive的表格式主要问题的关键是在文件级别跟踪表中的数据。他们不是一个指向一个目录或一组目录的表,而是将一个表定义为一个规范的文件列表。 解释如下: Hive的Table Format的状态和两个地方有关:Hive
Min-Max索引 Iceberg默认提供了MinMax索引,在Iceberg表的Manifest文件中,存储了数据文件每个列的Min/Max值, 使用Spark等引擎访问Iceberg表的时候,在分布式任务初始化阶段,会从Iceberg表的Manifest文件中获取文件列表及相关信息,并使用SQL
一、Parquet文件的格式拆解 概念 Row Group A logical horizontal partitioning of the data into rows. There is no physical structure that is guaranteed for a row gro