社区编辑申请
注册/登录
大多数数据仓库项目都失败了,这里有避免失败的灵丹妙药 译文
数据库 其他数据库
在数据驱动现实的今天,数据仓库变得对所有行业的公司都更加关键。然而尽管公司投入了大量的时间和金钱,大约80% 的数据仓库项目最终都没能达成它们的目标。

译者 | 罗辑

审校 | 孙淑娟

在数据驱动现实的今天,数据仓库变得对所有行业的公司都更加关键。然而尽管公司投入了大量的时间和金钱,大约80% 的数据仓库项目最终都没能达成它们的目标。这没有什么可耻的;事实上,类似失败比你想象的发生得更加频繁。当行业巨头出现问题的时候,这会成为新闻头条。但是对大多数企业而言,居高不下的项目失败率通常不为人知。

意识到你需要一个稳固可靠的数据仓库仅仅是冰山一角。后续发生的事情是投入可观的时间和金钱进行数据仓库的创建,组织和数据管理的安全维护,而你想让你的项目成为少数规划良好并能取得成功的项目。

下面分享我们对于数据仓库项目高失败率的见解,以及帮助你成功的策略。

设定符合实际的项目和回报率预期 - 不要期望太高,太快

数据仓库的好处显而易见:更高的效率和可靠性,更快的交付,更好的预测和对市场变化的更好的适应能力和潜在机会的更好响应能力。

然而,想要证明数据仓库的市场回报率是不现实的。空头支票,浮夸的目标和大规模的投资不一定能够带来明显的短期收益。一年过半,项目可能仍然让人觉得是个难以产生可视目标的信仰。

因为这一可怕的因素, 项目需求通常被设计用来精密的跟踪项目的复杂性和进度。“只要我们能够证明项目仍然在推进, 我们将有能力保证外部资金的注入并且最终完成项目,”有些人也许会这么说。但是,那些不能从实际角度出发解决组织商业目标的项目,注定要失败。

解决方案:从可行性角度赋能商业用户,并且从小处做起

审查你的数据仓库项目需求应当从给最了解业务目标的人赋能开始 - 而不是从赋能精通数据仓库的专家开始。

从在脑海中定义一个清晰的商业目标开始,你可以对你需要完成的任务报告逐条进行逆向工程。然后你可以设计数据仓库来达成目标。然后,用结构化的方式一点一滴的构建数据仓库。

例如,你可以从连接你资金流的核心数据源开始,这样你就可以汇报你的核心金融 KPI。久而久之,你可以迭代和扩张, 然后你的数据仓库可以包括和连接人力资源部门, 运营部门, 销售部门,质量管理部门等等,直到你添加了你所需要的所有的数据源。

在 Cohelion 公司,我们喜欢从为和我们合作的每一个客户制定数据蓝图起步。他们有什么样的数据源,数据源里数据的颗粒度是怎样的,他们主要的 KPI 是什么 - 不管是在现阶段还是在将来? 这帮助我们有能力构建快速响应用户核心汇报需求的数据仓库,也帮助我们设计出与他们业务需求与时俱进的数据仓库。然后,我们利用短短几周的时间为客户创建出数据仓库原型。然后,我们连接新的数据源,新的办公室,新的地区等等,以满足客户需求的速度不断增加数据仓库复杂性。

还有另外一个帮助你的数据仓库获得商业用户的关键因素:利用数据驱动的公司文化创建信任价值观 - 以及由此带来的洞察力。你们公司的关键数据指标需要满足实时性,可变性, 并且使公司意识到数据会使公司具备未来的竞争力。这一点对于确保公司人尽其才,物尽其用, 以便于你构建数据仓库非常重要,而这一点也能让组织对你们数据驱动未来的想法充满热情。

找到一个愿意给你们商业目标真正投资的项目伙伴

通常,对技术不敏感的组织会碰南墙。他们知道他们需要数据仓库,但是他们连怎么着手开始的基本概念都没有 - 而唾手可得的定制化数据仓库在市场上数不胜数,让人不知所措。

这让许多公司选择特定的专家路线。你苦苦寻找能够为你构建可运行的数据仓库的专家(因为供不应求,他们可能工资高并有增长趋势)。找到你自己的专家可能让你倍感轻松 - 但是准备好被他的专业能力所绑定。自然地,每一个专家都有个人倾向,他们会据此为你构建你的数据仓库:开源, 微软, 甲骨文或者优选的混合方案。

还有另外一个需要注意的地方。作为技术专家,他不太可能具有和你行业相关的商业目标一致的专业知识。假设你在管理一家货运公司,你知道你需要构建一个可运行的数据仓库。你可能决定去雇佣一个数据架构师来启动项目,但是你挑选候选人的标准是什么?当你找到一位专家的时候, 他是最能胜任的。但是他可能对你的行业或者数据仓库对应的 KPI 一无所知。

解决方案: 和了解你行业的数据伙伴齐心协作

和了解你行业的数据伙伴合作是明智之举。这一内部知识将帮助他们构建一个围绕你核心 KPI 的数据仓库, 保证你可以快速和可信的基于数据仓库生成报告。

当你拥有一个了解你业务领域的数据伙伴的时候, 你可以快速前行。他们将指导你如何迭代,扩张和增强你的数据仓库。而他们选择的方式符合你行业的演进过程,机会和合规需求。

确保给你的数据仓库输入高质量数据 - 输入垃圾意味着输出垃圾

设想一下: 你为数据仓库项目投入了大量的时间和金钱,但是没有人能确信最终会成功。现在到了生成数据仓库第一份数据报告的时刻了。当我们审计报告的时候,有人对数据准确率提出了严重质疑。这相当于是给项目宣判了死刑。

然而这一现象经常发生。这一点都不奇怪, 因为即便是在数据仓库项目设想被提出之前, 对于公司的数据就存在不同的意见。例如,可能会产生让职员觉得离谱的数据。内部争斗, 对于细节的粗心,甚至是合规的想法都能产生让公司无法公开透明讨论数据的数据孤岛。这在商业世界是很正常的, 然而如果这些问题进入了你的数据仓库,你就注定会失败。

解决方案: 在你的数据领地内优化准确率

想要成功,你的数据仓库项目必须有高质量的数据。我们支持我们的客户采用结构化的数据工作流,以便创建一个及时检验,平衡和审核的系统来提升数据准确性。

构建这些核心功能使得专家可以审计相关数据集合。这也有利于按需求追踪数据的误差和改动,帮助创建一种负责任和可信赖的文化以便确保你的数据仓库是可靠的。

自信地启动你的数据仓库项目

数据驱动是今年的流行词汇,我们经常发现我们的客户需要稳固,可靠和可扩展的的数据仓库以便实现数据驱动。

从更准确即时的 KPI 报告,到审计合规,到满足数据治理, 数据安全和可持续报告的需求, 数据仓库是组织必不可少的资产。

原文标题:Most data warehouse projects fail. Here’s how not to.,作者:GerbrandCasteleijn

责任编辑:华轩 来源: 51CTO
相关推荐

2022-07-27 08:07:29

数据仓库数据集合

2022-06-27 23:49:21

数据仓库资源不足集群

2022-07-26 15:38:58

数据仓数据治理数据团队

2022-06-30 21:08:25

大数据数据湖数据仓库

2021-06-29 10:03:45

2022-03-25 11:46:21

数据仓库软件安全保护数据

2017-08-09 10:50:11

大数据失败策略

2013-10-21 14:39:40

数据

2022-02-18 09:02:04

2016-12-13 19:40:00

2017-03-14 15:43:39

2020-10-13 06:52:50

数据仓库项目

2022-06-09 10:23:06

数据库迁移方案

2020-03-24 17:49:27

大数据IT技术

2020-09-06 10:02:32

项目管理战略目标CIO

2015-09-06 11:25:57

2018-09-24 09:15:12

数据仓库大数据

2019-06-06 14:08:37

数据仓库数据分析数据报表

2021-09-01 10:03:44

2018-07-26 10:26:09

大数据传统数据

同话题下的热门内容

如何设计多语言数据库高并发+海量数据下如何实现系统解耦?「下」每秒上千次高并发访问,HDFS优雅的抗住了高并发+海量数据下如何实现系统解耦?「中」高并发+海量数据下如何实现系统解耦?「上」干掉几百行的大SQL,我用HadoopFlink SQL 知其所以然:Explain、Show、Load、Set 子句

编辑推荐

几款开源的图形化Redis客户端管理软件推荐NoSQL数据库概览及其与SQL语法的比较为什么MongoDB敢说“做以前你从未能做的事”Python操作MongoDB看这一篇就够了一文看懂分布式数据库原理和 PostgreSQL 分布式架构
我收藏的内容
点赞
收藏

51CTO技术栈公众号