数据仓库即服务(DWaaS):定义、主要功能和解决方案提供商

译文
大数据 数据仓库
随着企业数据量以惊人的速度增长(比如IDC预计到2025年,年复合增长率为23%,达到175 ZB),采用现代数据基础架构已不可避免。各行各业大大小小的公司都不可避免地采用更有效的数据解决方案。

​译者 | 布加迪

审校 | 孙淑娟

数据仓库即服务(DWaaS)简介

随着企业数据量以惊人的速度增长(比如IDC预计到2025年,年复合增长率为23%,达到175 ZB),采用现代数据基础架构已不可避免。各行各业大大小小的公司都不可避免地采用更有效的数据解决方案。

这些组织需要整合来自多个数据源系统的业务数据,用于历史分析和趋势分析。这时候数据仓库有了用武之地,它使公司能够将有组织、干净的业务数据汇总起来(主要是适合行和列的“结构化数据”)。

需要为预定义的业务目的处理结构化数据时,数据仓库被视为首选。然而,构建和维护数据仓库是一项艰巨的任务。随着数据量不断增长,组织必须相应地扩展其本地仓库的存储和计算资源。这不仅需要大量投资,还会带来管理开销——团队始终密切关注整套基础架构,以保持正常运行,同时确保安全和合规。

这个挑战是小公司面临的主要障碍,正在通过基于云的数据仓库即服务(DWaaS)模型来解决。服务提供商负责设置、维护、保护和升级数据仓库,并负责处理所有相关软硬件堆栈的工作。客户只需要负责插入想要连接到仓库的数据源,并为托管服务付费。

DWaaS产品的关键功能

当企业选择数据仓库即服务产品时,它将从提供商那里获得几项关键服务。然而,它也可能会选择更具包容性的服务。基本服务清单包括以下内容:

  • 数据仓库设计与开发

一家提供DWaaS服务的公司先查看客户独特的业务需求、现有的数据管理策略、数据源和质量实践,为客户配置自定义数据仓库架构。一旦自定义框架准备就绪并面向未来(比如针对可扩展性等方面),就可以通过选择最合适的软硬件系统和流程来实现它。

  • 与数据源集成

配置自定义数据仓库后,提供商致力于将其与所有现有数据源集成,比如客户的交易系统。视具体情况而定,供应商可以利用领先的管道技术或自定义代码来确保将数据以高完整性传输到仓库。一些供应商还将仓库与现有的分析解决方案集成起来,供内部分析。

  • 数据清洗和迁移

集成后,来自相连数据源的信息将被合并、清理、强化,并定期测试,以确保准确性、完整性以及符合核心数据模型。清理后的信息被传输到客户选择的云平台,但一些提供商也支持混合策略,即一些数据保存在客户的地方,一些数据保存在云端。

  • 支持

仓库启动并运行后,服务提供商启动维护数据质量、添加和删除数据源、检查性能以及不时确保提取、转换和加载(ETL)正确性的内务管理工作。提供商确保从数据模型到基础架构的整个服务都符合隐私、安全和治理等方面的标准。

  • 不断进化

在维护数据仓库的同时,提供商密切关注不断变化的业务需求和数据源,以确保整个数据环境得到定期升级,无论在软件、计算还是在存储方面。

2022年主流数据仓库即服务解决方案提供商

借助DWaaS解决方案,许多供应商提供了数据仓库的好处,无需客户承担设置和维护的重任。然而,根据G2和Gartner获得的客户反馈,只有少数提供商取得的成绩足以被归类为领导者。

  • Snowflake Data Cloud

Snowflake Data Cloud跨多个云(包括AWS和Azure)运行,提供仓储功能,并为结构化数据和半结构化数据提供完整的关系数据库支持。它将存储、计算和云服务分成不同的层,允许它们独立变更和扩展。它还自动管理维护的关键方面,比如查询缓存、规划、解析和优化以及更新处理等方面。全球有5000余家公司使用Snowflake Data Cloud处理数据,供人工智能和分析所用。

据客户评价显示,该平台满足用户需求,并在易部署性、管理、支持质量、可扩展性、集成和定价灵活性等所有方面均脱颖而出。

  • Amazon Redshift

作为一款AWS产品,Amazon Redshift提供了完全托管且可扩展的云数据仓库,允许企业对存储在S3存储桶中的TB到PB级数据执行复杂的分析查询。它通过配置节点集群来运行,每个节点为一个或多个数据库提供CPU、RAM和存储。随着仓储需求不断变化,集群可以在Redshift中手动配置或取消配置,相应地扩大或缩小规模。

根据Gartner的用户反馈,Redshift几乎与Snowflake相提并论,但在最终用户培训质量和第三方资源可用性等方面落后。

  • Google BigQuery

BigQuery是谷歌提供的完全托管的数据仓库产品。它带有无服务器架构,由自动配置提供支持,拥有流数据支持、机器学习和地理空间分析等内置功能。据谷歌声称,BigQuery将计算和存储分离以增强扩展的灵活性,并允许开发人员使用采用熟悉编程语言(包括 Python、Java、JavaScript和Go)的客户端库,以转换和管理数据。

该解决方案还可以借助身份和访问管理工具,对数据和计算资源进行集中管理。根据 G2评价显示,使用BigQuery的客户声称他们在解决方案的部署、使用和支持等方面遇到了问题。

  • IBM DB2

与谷歌一样,IBM也提供完全托管的弹性云数据仓库,通过其IBM DB2解决方案提供存储和计算的独立扩展。该产品包括高度优化的列式数据存储、可操作的压缩和内存处理,以加速分析和机器学习。此外,它还能自动执行维护任务,比如监控、正常运行时间检查和备份。

该解决方案存在的问题类似谷歌的BigQuery,用户报告他们在解决方案的设置、部署、使用和所提供支持的质量等方面遇到了问题。

  • Microsoft Azure Synapse Analytics

Azure Synapse Analytics将数据集成、仓储和分析功能结合在一起,为企业提供统一的工作空间,以便为AI和商业智能(BI)等用例摄取、准备、管理和提供大数据。

该解决方案使数据专业人员可以自由地使用无服务器资源或手动配置的资源来查询数据。由于存储和计算资源几乎可无限扩展、深度集成的SQL引擎、直接与Power BI和Azure ML集成以及对数据控制的高级访问,它也是该领域的领先者之一。

Walgreens、Co-op、Marks and Spencer和GE Aviation等领先企业目前都在使用Azure Synapse Analytics。根据Gartner评价显示,存在的问题主要是定价模型。

该类别中其他值得注意的玩家是SAP、甲骨文、Yellowbrick、Cloudera和天睿。总体而言,DWaaS解决方案市场预计将从2020年的14.4亿美元增长到2026年的43亿美元,增长 20%。

据Mordor Intelligence声称,这种激增主要是由于公司越来越有兴趣了解有关业务流程、产品、客户和服务等方面的可用信息,以便牢牢抓住新的商机。

原文标题:What is data-warehouse-as-a-service (DWaaS)? Definition, key functions and solution providers​,作者:Shubham Sharma​

责任编辑:华轩 来源: 51CTO
相关推荐
点赞
收藏

51CTO技术栈公众号