Apache Atlas原理简述
一、Apache Atlas是什么
Atlas是一组可扩展的核心基础治理服务,使企业能够有效和高效地满足其在Hadoop中的合规性要求,并允许接入整个公司数据的生态系统。
Apache Atlas为组织提供开放的元信息管理和治理能力,以构建其数据资产的目录,对这些资产进行分类和治理,并围绕这些数据资产提供协作能力。
二、主要功能
- 支持Hive、Kafka、Sqoop、HBase等数据源的元数据管理。
- 支持Hive表级别和列级别的血缘关系。
- 丰富的REST API可供调用。
三、数据血缘架构
ATLAS_HOOK:用于从外部系统(如 Hive、Sqoop、Storm 等)接收元数据变更事件。
ATLAS_ENTITIES:主要用于通知其他依赖于元数据变更的系统,例如数据质量工具、监控系统等。
四、缺点
- 社区不活跃 ,依赖项较多,配置繁琐。
- 不支持数据开发,建模,数据质量等功能。
- 支持的主流的数据源较少。
- 对低版本的Hive支持不够好。