1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
| 在hive时,我们通常有一个很头疼的问题 即使我们对表名进行一系列的标准化规范,但是在使用时,仍然依靠的是人脑的记忆,或者desc查看表信息 而且在有人修改过表之后,对这些信息无感知
采集 收集数仓数据库数据表的元数据,注释信息,字段信息,数据量信息 管理及版本 并且能够通过统一的门户进行表结构修改,对修改操作进行记录,并维护版本信息,这样就能确定到具体的负责人,并且及时恢复 告警 也可以在元数据发生变动时提供预警操作,主要针对上游数据源结构发生改变 上面说的一些,是数据方面的一些管理,业务层面也有
在数仓里,除了基本的纵向的层以外,横向的业务也很重要 数仓总线->数据域->数据维度->指标 这方面尽量的手动的维护一下,并不需要频繁的变动 数仓总线是对数据域数据维度两者的一个概览图,其主要作用是让新人可以第一时间了解到整个数仓有多个模块,每个模块中又有多少业务需求 数据域的划分可以理解为工作划分,对应的工作有对应专业的人去做,划分原则就是尽可能不相互干扰 数据维度,根据业务场景以及可用的数据源,确定汇总粒度,尽可能选取最细粒度,根据粒度定义维度,其实最细的粒度就是最低层次的维度 指标的管理可以说是重中之重,在开发过程中没有谁说自己没和产品经理互掐过 将收集后的指标口径,以及计算逻辑进行统一管理
针对表,业务构建一个元数据管理平台(表数量级没到千级别手动维护也行),这样能带来什么样的好处 1.表的快速定位 2.维度信息清晰 3.各开发人员分工明确 4.追溯问题清晰
|