一、背景 Iceberg到底解决了什么问题? 传统Hive数仓存在的问题 一言以蔽之:Hive的表格式主要问题的关键是在文件级别跟踪表中的数据。他们不是一个指向一个目录或一组目录的表,而是将一个表定义为一个规范的文件列表。 解释如下: Hive的Table Format的状态和两个地方有关:Hive
Min-Max索引 Iceberg默认提供了MinMax索引,在Iceberg表的Manifest文件中,存储了数据文件每个列的Min/Max值, 使用Spark等引擎访问Iceberg表的时候,在分布式任务初始化阶段,会从Iceberg表的Manifest文件中获取文件列表及相关信息,并使用SQL