社区编辑申请
注册/登录
新数据仓库模式设计有利于企业用户
数据库 数据仓库
业务分析师的目标之一是用数据讲述完整的故事,提供有关业务如何进行或如何改进的见解。这是通过商业智能仪表板来实现,该仪表板从数据仓库提取数据。

业务分析师的目标之一是用数据讲述完整的故事,提供有关业务如何进行或如何改进的见解。这是通过商业智能仪表板来实现,该仪表板从数据仓库提取数据。

当尝试关联数据仓库中不同仪表板的信息时,企业用户开始面临挑战。这通常需要求助于数据工程师,数据工程师需要在数据仓库中创建数据集市–由多个星形图组成,而这可能导致数据丢失或数据重复。

这种复杂性促使Francesco Puppini探索可更好地支持最终用户的数据仓库模式设计。他在与Bill Inmon合著的《The Unified Star Schema: An Agile and Resilient Approach to Data Warehouse and Analytics Design》一书中探讨了这一问题,该书由Technics Publications出版。

什么是星型图和雪花图?

在讨论Unified Star Schema之前,让我们看一下星型模式本身。

星型模式是最简单的尺寸建模形式。该模式由事实和维度组成。事实以事件为中心,而维度则引用与事实有关的信息。维度以类似于星型的方式与事实相关。

此外,雪花模式将维度与其他维度相关联并继续分支。Puppini认为,当数据没有问题时,雪花模式最适合。

他说:“但数据总是有问题。“

Unified Star Schema的好处

Puppini说:“当你将数据写入数据库时​​,它是按某种方式组织。但是当你阅读它,最好以一种不同的方式组织它。”

对于最终用户而言,星型和雪花模式的主要挑战是,企业用户在寻找见解方面缺乏独立性。为了使用此类数据仓库模式设计对数据执行复杂查询,最终用户需要数据工程师手动关联数据表。Puppini说,这就像每次需要一杯水时都叫水管工一样。此外,当关联不兼容表时,整合将事实表与联接通常会导致重复数据。

他说,数据重复的核心问题是扇形陷阱。当两个或多个一对多联接链接时,就会发生扇形陷阱。这会与数据产生冲突,从而导致数据重复。从历史上看,这是通过手动重复数据删除或这些临时连接解决。

Unified Star Schema的关键是连接事实表的桥接。在书中,Puppini将桥接与电话总机进行比较。在Unified Star Schema中,桥接处于中心位置,所有事实表和维度表围绕它,每个表都连接到该桥接。然后,这限制了对数据的转换次数。

Puppini说:“现在的数据仓库问题是它们不堪重负,正在过度转换。”

通过使用桥接并执行联合而不是联接,这使用户可以访问数据而无需进行转换。

他说:“你转换数据越多,你就越会陷入混乱。我只是采取最少步骤以将信息整合在一起。”

请点击此处查看由Technics Publications出版的Bill Inmon和Francesco Puppini撰写的《The Unified Star Schema》的摘录,以了解有关Unified Star Schema的部署和用例的更多信息。

 

责任编辑:赵宁宁 来源: TechTarget中国
相关推荐

2022-06-30 18:17:00

数据集云数据建模计数据仓库

2022-06-12 06:48:34

2022-06-13 08:00:00

数据湖数据仓库大数据

2022-06-24 09:38:43

数据库大数据

2022-04-23 16:58:24

微服务微服务架构

2022-06-17 18:32:54

开源大数据数据调度

2022-06-27 23:44:37

云原生云存储云计算

2022-05-11 08:00:00

Lakehouse存储数据湖

2022-06-28 09:47:05

数据仓库

2022-06-28 14:47:43

数据中心服务器科技

2022-05-12 14:44:38

数据中心IT云计算

2022-06-08 08:38:21

云存储数据安全

2017-08-17 15:52:38

企业数据仓库

2022-06-16 15:42:16

攻击面管理ASM

2022-06-17 07:32:39

策略模式SpringBoot

2022-05-13 11:02:45

数据中心配电设计

2022-04-12 18:29:41

元数据系统架构

2022-05-23 08:18:02

物联网连接物联网IOT

2022-06-06 14:08:52

开发者GitHubPR

2022-06-27 15:25:08

架构模型治理

同话题下的热门内容

横空出世的 Data Fabric,是下一个风口吗?一次非常有意思的 SQL 优化经历:从 30248.271s 到 0.001s字节云数据库未来方向的探索与实践这年头,谁还不知道这10个高级SQL概念?面试经典问题,如何提高数据库的性能?提高分层 SQL 结构的性能海量数据冷热分离方案与实践Redis 的内存淘汰策略和过期删除策略,你别再搞混了!

编辑推荐

Oracle数据库初学者开场篇NoSQL数据库概览及其与SQL语法的比较如果对MySQL还停留在这个印象,就out了SQL编程之高级查询及注意事项防止服务器宕机时MySQL数据丢失的几种方案
我收藏的内容
点赞
收藏

51CTO技术栈公众号