社区编辑申请
注册/登录
数据仓库中的数据清洗
大数据 数据仓库
可以将数据仓库的数据清洗比做政客们募集资金的过程。几乎不存在任何一方独立存在的可能性。数据清洗往往是数据仓库项目中时间最密集的,最有争议的进程。

什么是数据清洗?

“数据清洗确保无法辨认的数据不会进入数据仓库。无法辨认的数据将影响到数据仓库中通过联机分析处理(OLAP)、数据挖掘和关键绩效指标(KPI)所产生的报表。”

在哪里会用到数据清洗的一个简单例子是,数据是如何储存在不同的应用系统中的。例如:2007年3月11号可以储存为“03/11/07”或“11/03/07”及其他格式。一个数据仓库项目将数据输入数据仓库之前需要将不同格式的日期转变成一个统一的格式标准。

为什么要进行提取,转换和加载(ETL)?

提取、转换和加载 (ETL) 指的是一种可以帮助确保数据在进入数据仓库之前被清洗过(即符合标准)的工具。供应商提供的提取、转换和加载 (ETL) 工具更加容易被用来管理持续进行的数据清洗。供应商提供的提取、转换和加载 (ETL) 工具坐镇在数据仓库之前,监测输入的数据。如果它遇到了程序指定转换的数据,它就会在数据载入数据仓库之前对其进行转换。

提取、转换和加载 (ETL) 工具也可以用来从远程数据库或者通过自动设定的事件或通过人工干预提取数据。有替代工具可以替换ETL工具,这要取决于你项目的复杂性和预算。数据库管理员们 (DBA) 可以编写脚本来完成提取、转换和加载 (ETL) 的功能,通常能满足较小的项目需要。微软的SQL服务器都有一个免费的被称为数据转换服务 (DTS) 的提取、转换和加载 (ETL) 工具。数据转换服务 (DTS) 是一款不错的免费工具,但它确实有其局限性,尤其是在数据清洗的持续管理上。

提取、转换和加载 (ETL) 的供应商有Informatica、IBM(Cognos)及Pentaho等。 在对所有产品进行选择时,在接触供应商之前列出你认为对一个提取、转换和加载 (ETL) 供应商的需求。从咨询顾问那里获得服务还是值得的,它能在产品的选择上帮助你进行需求分析。

数据清洗和提取、转换和加载(ETL)对一个数据仓库项目的成功有多重要?

在数据仓库产生的结果符合利益相关者的期望值时,提取、转换和加载 (ETL) 通常被忽视和置于脑后的。结果是,提取、转换和加载 (ETL) 冠以数据仓库项目的“沉默的杀手”的称号。大多数数据仓库项目由于数据清洗方面的意外情况而体验到延迟和预算超支的情况。

如何规划数据清洗?

及早开始对将要进入数据仓库的数据进行筹划是很重要的,这一筹划可能会随着项目的成熟发展而改变,但当你需要获得数据拥有者在没有事先通知的情况下不会改动数据的格式的承诺时,这些文件的踪迹就变得极为有价值。

创建一个需要提取、转换和加载的数据列表。为极有可能需要转换格式的数据设立一个独立的列表。对是否需要购买提取、转换和加载(ETL)工具做出决定,并留出一个全面的预算。从该领域的专家那里听取建议并评估产品是否适用于你企业的整体技术层次。

原文链接:http://www.chinabi.net/CIO/dwh/201107/1942.html

【编辑推荐】

 

责任编辑:彭凡 来源: 新浪博客
相关推荐

2013-03-27 15:10:14

ETL

2022-03-28 14:08:02

Python数据清洗数据集

2022-07-26 15:38:58

数据仓数据治理数据团队

2022-02-18 09:02:04

2022-02-23 20:53:54

数据清洗模型

2020-10-14 06:28:38

数据仓库模型

2018-03-20 09:36:57

2018-07-24 09:28:18

存储数据仓库

2021-11-30 08:11:19

2019-06-06 14:08:37

数据仓库数据分析数据报表

2015-04-02 15:50:47

数据仓库数据挖掘

2009-01-18 15:48:31

2010-08-30 09:03:12

数据仓库

2016-11-08 09:16:54

数据仓库优化

2021-09-01 10:03:44

2020-10-27 09:27:46

SQL分析数据

2020-01-08 21:53:06

大数据数据仓库数据湖

2011-01-12 17:04:30

2018-07-13 16:10:21

数据仓库数据存储

2019-01-23 09:48:06

数据清洗数据分析代码

同话题下的热门内容

数据专家的晋级之路:大数据中的四大挑战!数据挖掘和数据仓库之间的区别2022年网购如何对抗大数据杀熟,更换商品名词有惊喜Arctic开源!网易数帆X华泰证券,推动湖仓一体落地什么是数据沿袭?相关技术、最佳做法和工具

编辑推荐

使用Pandas&NumPy进行数据清洗的6大常用方法2018年7款最佳免费数据分析工具pyspark访问hive数据实战【漫谈数据仓库】 如何优雅地设计数据分层人工智能、大数据与深度学习之间的关系和差异
我收藏的内容
点赞
收藏

51CTO技术栈公众号