admin 管理员组

文章数量: 1086019


2024年4月13日发(作者:爬虫模拟登录输入不进去)

Apache atlas

第一章: Apache atlas简介

为寻求数据治理的开源解决方案,Hortonworks公司联合其他厂商与用户于2015年发起数据治理倡议,

包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理等方面。Apache Atlas 项目就是这个倡议的

结果,社区伙伴持续的为该项目提供新的功能和特性。该项目用于管理共享元数据、数据分级、审计、安

全性以及数据保护等方面,努力与Apache Ranger整合,用于数据权限控制策略。目前最新版本是2.0.0.

.1 apache atlas 架构介绍

1.1.1核心组件Core

Type System: Apache Atlas 允许用户为他们想要管理的元数据对象定义一个模型,该模型被叫做“类型”。

类型的实例被称为“实体”,实体用来表示被管理的实际元数据对象类型系统是允许用户定义和管理类型和

实体的组件。。

例如:Atlas 本身自带的hive_table类

Name: hive_table

TypeCategory: Entity

SuperTypes: DataSet

Attributes:

name: string

db: hive_db

owner: string

createTime: date

lastAccessTime: date

comment: string

retention: int

sd: hive_storagedesc

partitionKeys: array

aliases: array

columns: array

parameters: map

viewOriginalText: string

viewExpandedText: string

tableType: string

temporary: boolean

从上面示例中可以看出,类由名称name唯一标识

类型具有元类型。Atlas具有以下元类型:

基本元类型:boolean, byte, short, int, long, float, double, biginteger, bigdecimal, string, date

枚举

集合元类型: array, map

复合元类型:Entity, Struct, Classification, Relationship

Hive_table类的一个实体

guid: "9ba387dd-fa76-429c-b791-ffc338d3c91f"

typeName: "hive_table"

status: "ACTIVE"

values:

name: “customers”

db: { "guid": "b42c6cfc-c1e7-42fd-a9e6-890e0adf33bc",

"typeName": "hive_db"

}

owner: “admin”

createTime: 149

updateTime: 77

comment:

retention: 0

sd: { "guid": "ff58025f-6854-4195-9f75-3a3058dd8dcf",

"typeName":

"hive_storagedesc"

}

partitionKeys:

aliases:

columns: [ { "guid": "65e2204f-6a23-4130-934a-9679af6a211f",

"typeName": "hive_column" },

{ "guid": "d726de70-faca-46fb-9c99-cf04f6b579a6",

"typeName": "hive_column" },

...

]


本文标签: 数据 类型 管理 用户 实体