终于有人把元数据讲明白了

大数据 数据分析
元数据是数据的“说明书”,完善的元数据有利于数据使用者了解企业有什么数据,它们分布在哪里,数据的业务含义是什么,数据口径及颗粒度是怎样的,需要使用数据时应该向谁提出申请,以及如何获取数据。

元数据管理工具是企业数据治理的重要抓手,它可以帮助企业解决数据查找难、理解难等问题,促进数据的集成和共享。

一、系统架构

从应用角度看,元数据管理平台可分为数据源层、元数据采集层、元数据管理层、元数据应用层四层架构,如图1所示。

1. 数据源层

企业的元数据来自多个方面:

业务系统中的元数据,例如ERP、CRM、SCM、OA等;

数据管理平台中的元数据,例如数据仓库、ODS、数据湖等;

数据处理工具中的元数据,例如ETL工具的脚本元数据;

数据分析工具中的元数据,例如Cognos、Power BI中的元数据;

各种半结构化数据源,例如Word、PDF、Excel等各种格式化电子文件。

2. 元数据采集层

元数据管理工具是否强大部分体现在其对各类数据源的采集能力上,支持的各类数据源类型越多,说明元数据采集能力越强大。

图1 元数据管理平台

元数据采集层主要通过对各类数据源的适配,实现元数据的统一采集,并将其存储于符合CWM标准的中央元数据仓库中。

3. 元数据管理层

元数据管理层提供了对元数据的管理、维护、查询功能,包括元数据查询、元数据管理、元数据版本管理、元数据变更管理、元数据适配器管理等。

4. 元数据应用层

元数据应用层提供了元数据的浏览和分析功能,包括企业数据地图、元数据血统分析、元数据影响分析、元数据冷热度分析、元数据全链分析、元数据模型查询等功能。元数据管理工具可以指导企业数据资产管理的建设,支持数据质量的探查,促进企业数据标准的落地。

二、元数据采集

通过元数据管理平台可以将分散、异构的信息资源进行统一采集、描述、定位、检索、评估、分析,实现数据的结构化,为机器处理创造可能,从而大大降低数据治理的人工成本。

1. 采集内容

元数据采集内容主要包括业务元数据、技术元数据和操作元数据,详细说明见表1。

表1 元数据采集内容说明

2. 采集方式

元数据采集方式主要有两种:自动化采集和人工采集。

(1)自动化采集

自动化采集主要是通过元数据管理工具提供的各类适配器进行元数据采集。元数据适配器是基于不同数据源的元数据桥接器,不同数据源内部的元数据桥是不同的,因此没有一个万能适配器可以用于所有类型数据源的元数据采集。

当前MySQL、Oracle、PostgreSQL等关系型数据库的元数据采集方式大都是通过JDBC连接各种数据源的元数据所在库,然后通过SQL的方式查询各数据源的元数据库表,提取出元数据信息。JDBC就是关系型数据库的一个桥接器。

而对于一些半结构化、非结构化元数据,则需要用到图像识别、自然语言处理等人工智能技术,构建专业的元数据采集适配器,进行元数据的识别和采集。

在元数据采集过程中,元数据采集适配器十分重要,元数据采集既要适配各种DB、各类ETL、各类数据仓库和报表产品,还要适配各类结构化或半结构化数据源。元数据采集适配器可以通过自动化的方式对企业各类数据源的元数据进行统一采集、统一管理。

(2)人工采集

在元数据管理实践中,最难采集的往往不是技术元数据或操作元数据,而是业务元数据。由于企业缺乏统一的数据标准,业务系统竖井化建设,系统建设过程中没有对业务元数据进行统一定义,所以即使通过元数据适配器将业务系统的技术元数据采集到元数据仓库中,也很难识别这些表、视图、存储过程、数据结构的业务含义。这就需要采用人工的方式对现有数据的业务元数据进行补齐,以实现元数据的统一管理。

三、元数据管理

1. 元数据管理功能

市场上主流的元数据管理产品基本都包括元数据查询、元模型管理、元数据维护、元数据变更管理、元数据版本管理、采集适配器管理、元数据接口等功能。

元数据查询:支持按关键字的全文搜索,通过元数据查询功能可以准确定位元数据。

元模型管理:基于元数据管理工具构建符合CWM规范的元数据仓库,实现元模型统一、集中化管理,支持元模型导入与导出,支持新增、修改、权限设置等功能。

元数据维护:提供对信息对象的基本信息、属性、被依赖关系、依赖关系、组合关系等元数据的新增、修改、删除、查询、发布等功能,以管理企业的数据标准。

元数据变更管理:元数据的变更需要经过审核才能发布,元数据管理工具提供元数据审核、元数据版本等功能,以支撑元数据的变更管理。

元数据版本管理:提供元数据的版本管理功能,对于元数据新增、修改、删除、发布和状态变更都有相应的流程,同时支持元数据版本的查询、对比、回滚。

采集适配器管理:提供元数据采集适配器的新增、修改、删除、配置等功能。

元数据接口:元数据管理工具提供统一的元数据访问接口服务,一般支持REST或Web Service等接口协议。通过元数据访问服务,支持企业元数据的共享。

2. 元数据分析功能

元数据分析功能包括数据资源地图、血缘分析、影响分析、冷热度分析、关联度分析、对比分析等。

数据资源地图:基于企业元数据生成并以拓扑图的形式展示企业数据资源的全景地图,方便用户清晰直观地查找和浏览企业数据资源。

血缘分析:也叫血统分析,采用向上追溯的方式查找数据来源于哪里,经过了哪些加工和处理。常用于在发现数据问题时,快速定位和找到数据问题的原因。

影响分析:功能与血缘分析类似,只是血缘分析是向上追溯,而影响分析是向下追踪,用来查询和定位数据去了哪里。常用于当元数据发生变更时,分析和评估变更对下游业务的影响。

冷热度分析:也叫活跃度分析,用于评估哪些数据是常用的,哪是数据是“沉睡”的。

关联度分析:分析不同数据实体之间的关联关系,从而判断数据的重要程度。

对比分析:对于选定的多个元数据或者一个元数据的多个版本进行比较,找出差异,再根据差异分析对业务的影响。

四、元数据应用

元数据是描述数据的数据,它可以帮助描述、理解、定位、查找企业的数据,支持数据的管理和使用。元数据不仅是数据治理的基础,而且在应用系统开发、数据仓库建设过程中也发挥着重要作用。

1. 元数据在数据治理中的应用

元数据管理是数据治理的基础,它用于定义和描述数据、数据之间的关系,以及数据如何管理、如何使用。元数据在数据治理中的主要应用如下:

  • 定义和描述业务域、业务主题和数据实体;
  • 描述数据结构和数据关系;
  • 描述源系统、目标系统、表、视图、存储过程和字段属性;
  • 定义和描述数据资产目录;
  • 定义和描述主数据模型的属性;
  • 管理数据标准;
  • 描述数据质量规则和数据质量检核结果;
  • 识别和定义数据集中的敏感数据、敏感属性;
  • 血缘分析和影响分析;
  • 描述数据流向,数据来自哪里、流向哪里;
  • 描述数据管理,谁负责管理数据、在哪里管理;
  • 描述数据的使用,谁有权使用数据、在哪里使用。

2. 元数据在应用系统开发过程中的应用

应用系统的开发一般需要3个环境:开发环境、测试环境和生产环境。在应用系统开发上线的过程中,经常会遇到在开发环境测试没有问题的应用系统,集成到测试环境中或迁移到生产环境中就会出现问题,例如SQL脚本执行不了,缺少数据表或视图,依赖的非空字段数据缺失,或者主外键关系、索引不正确等。

针对以上问题,元数据管理工具提供了一个行之有效的破解之法,如图2所示。

图2 元数据在应用开发过程中的应用

1)通过元数据管理工具对应用系统所涉及的数据模型、库表结构进行规划设计,落地系统级逻辑模型。

2)基于反向工程将元数据管理工具中的数据模型导入应用系统的开发、测试、生产等环境中,应用系统的开发可以在元数据管理工具提供的数据模型基础之上构建物理库表。

3)通过元数据管理工具自动化采集开发、测试、生产三个环境的库结构、表结构、字段结构、视图与存储过程结构等元数据。

4)在应用系统开发过程中,从开发到测试部署之前,通过元数据管理工具的对比分析功能,迅速找到开发和测试环境中不一致的地方,支持在测试环境快速部署应用系统,并确保数据环境的一致性。

同理,应用系统在生产环境中的部署和运行也可以采用第4)步,以确保生产环境与开发、测试环境一致,支持应用系统的快速上线。

3. 元数据在数据仓库中的应用

数据仓库是用于数据分析、支持管理决策的系统。一个数据分析图表的诞生并不是一帆风顺的,需要经过多次的数据抽取、清洗、转换、汇总,才能将数据的结构、数据依赖关系、数据层次关系等理清晰,统一数据口径,将复杂的问题简单化,让设计者和使用者明确感知到数据的整个生命周期,以支持数据分析。

数据仓库是一个典型的分层设计的数据架构,其分层设计反映了数据在数据仓库中的加工处理过程。元数据作为数据仓库的核心组成部分,主要用于记录和管理数据在数据仓库中的整个流转过程,实现对数据仓库各层级数据进行统一管理,如图3所示。

图3 元数据在数据仓库中的应用

元数据在数据仓库中的应用如下:

  • 描述数据源的库表结构、数据关系以及每个数据项的定义;
  • 描述数据源中每个数据项的值域范围和更新频率;
  • 描述数据源与数据仓库之间的数据映射关系;
  • 描述数据仓库中有哪些数据以及它们来自哪里;
  • 描述数据在数据仓库各层中的加工处理过程;
  • 元数据管理工具为数据管理者和使用者提供了理解和查询数据的一致语言;
  • 利用元数据管理工具的元数据变更和版本管理功能,管理数据仓库的数据模型,支持将元数据恢复到某一版本;
  • 利用元数据管理工具的血缘分析、影响分析等功能,对数据仓库中的数据问题快速定位、快速查找;
  • 利用元数据管理工具的开放式元数据交换标准,实现数据仓库中数据的交换和共享。

五、总结

元数据管理工具提供了可靠、便捷的工具,能够对企业分散的元数据进行统一、集中化管理,帮助企业绘制数据地图、统一数据口径、标明数据方位、控制模型变更。利用元数据管理工具可以更好地获取、共享、理解和应用企业的数据信息,降低数据集成和管理成本,提高数据资产的透明度。

关于作者:

罗小江,用友集团助理总裁、平台和数据智能事业部总经理、北京软件和信息服务业协会云计算专委会副会长、中国企业财务管理协会企业风险管控专业委员会副主任委员。

石秀峰,用友集团数据治理专家、中国电子商会数据资源服务创新专业委员会受聘专家、数据质量管理智库(DQPro)受聘专家。

本文摘编于《一本书讲透数据治理:战略、方法、工具与实践》,经出版方授权发布。(ISBN:9787111694489)转载请保留文章出处。

责任编辑:武晓燕 来源: 数仓宝贝库
相关推荐

2021-06-29 11:21:41

数据安全网络安全黑客

2020-11-30 08:34:44

大数据数据分析技术

2022-01-05 18:27:44

数据挖掘工具

2022-04-22 11:26:55

数据管理架构

2021-06-13 12:03:46

SaaS软件即服务

2021-10-09 00:02:04

DevOps敏捷开发

2022-03-27 20:32:28

Knative容器事件模型

2020-10-29 06:09:37

数据中台数据大数据

2022-04-18 07:37:30

数据信息知识

2022-05-09 20:23:51

数据采集

2021-02-14 00:21:37

区块链数字货币金融

2022-07-31 20:29:28

日志系统

2021-03-03 21:31:24

量化投资利润

2020-12-01 09:22:43

进程协程开发

2021-09-02 12:30:22

自动驾驶人工智能技术

2021-04-12 07:36:15

Scrapy爬虫框架

2022-02-15 09:04:44

机器学习人工智能监督学习

2022-07-26 00:00:01

安全红蓝对抗渗透

2022-04-27 18:25:02

数据采集维度

2021-12-03 18:25:56

数据指标本质
点赞
收藏

51CTO技术栈公众号