Pyke's Blog 给我一双看清世界的眼眸

数据湖技术之Iceberg

一、背景 Iceberg到底解决了什么问题? 传统Hive数仓存在的问题 一言以蔽之:Hive的表格式主要问题的关键是在文件级别跟踪表中的数据。他们不是一个指向一个目录或一组目录的表,而是将一个表定义为一个规范的文件列表。 解释如下: Hive的Table Format的状态和两个地方有关:Hive

Administrator Administrator Published on 2024-02-10

Iceberg中内部索引增强

Min-Max索引 Iceberg默认提供了MinMax索引,在Iceberg表的Manifest文件中,存储了数据文件每个列的Min/Max值, 使用Spark等引擎访问Iceberg表的时候,在分布式任务初始化阶段,会从Iceberg表的Manifest文件中获取文件列表及相关信息,并使用SQL

Administrator Administrator Published on 2024-02-10