Administrator
Published on 2025-01-24 / 0 Visits
0

Apache Atlas原理简述

Apache Atlas原理简述

一、Apache Atlas是什么

Atlas是一组可扩展的核心基础治理服务,使企业能够有效和高效地满足其在Hadoop中的合规性要求,并允许接入整个公司数据的生态系统。

Apache Atlas为组织提供开放的元信息管理和治理能力,以构建其数据资产的目录,对这些资产进行分类和治理,并围绕这些数据资产提供协作能力。

二、主要功能

  1. 支持Hive、Kafka、Sqoop、HBase等数据源的元数据管理。
  2. 支持Hive表级别和列级别的血缘关系。
  3. 丰富的REST API可供调用。

三、数据血缘架构

Atlas_Datalineage.PNG

ATLAS_HOOK:用于从外部系统(如 Hive、Sqoop、Storm 等)接收元数据变更事件。

ATLAS_ENTITIES:主要用于通知其他依赖于元数据变更的系统,例如数据质量工具、监控系统等。

四、缺点

  1. 社区不活跃 ,依赖项较多,配置繁琐。
  2. 不支持数据开发,建模,数据质量等功能。
  3. 支持的主流的数据源较少。
  4. 对低版本的Hive支持不够好。