AI就绪的数据存储基础设施:定义、分类、本体与未来展望 精华

发布于 2025-7-21 07:00
浏览
0收藏

​概述

IT高管们明白投资AI项目及其支持基础设施的必要性。根据IDC的研究,技术领导者预计在未来两年内,整体AI预算和专项GenAI预算将翻倍。然而,预算并非无限,且如前所述,AI项目的成功率相当低。因此,组织的最高层级正密切监控着支出与成果。

根据报告,35.1%的受访者表示,在未来18个月内,AI赋能的能力将对其团队的数据管理效率和效能产生最大影响。然而,受访者也指出,数据管理是使用GenAI的最大障碍之一。

为支持关键工作负载,正确构建基础设施并平衡计算、存储和网络技术始终是当务之急。支持AI工作负载显然不仅仅是堆砌GPU那么简单。不幸的是,整个行业仍在学习和适应不断变化的基础设施需求,包括那些针对数据存储的特定需求。

这份IDC特别研究报告探讨了存储系统和存储软件为实现AI就绪而在演进中的需求,并且是以下四部分系列报告的第一部分:

  • AI就绪的数据存储基础设施:定义、分类、本体与未来展望。在本报告中,我们定义了什么是AI就绪的数据存储基础设施,其组成部分,以及其与“普通”存储系统的区别。我们还描述了支持AI环境所需的生态系统和连接点。
  • 客户之声。这项终端用户初步研究有助于回答市场现状、客户优先级、预算和购买标准等问题。订阅者将收到一份关键发现的解读报告。
  • 竞争格局。在本部分,我们概述了关键的IT供应商,包括系统供应商和独立软件供应商(ISV)。
  • 市场规模与预测。基于IDC的研究,我们在此提供了AI就绪的数据存储基础设施市场的确切当前规模及至2030年的增长预测。

序言

尽管人工智能(AI)备受炒作,但它仍有望成为这十年来最具影响力的技术变革之一。不久前,业界还在热议生成式AI(GenAI),紧接着是检索增强生成(Retrieval-Augmented Generation, RAG)AI,而现在则是代理式AI(Agentic AI)。我们切不可忘记,这些较新的人工智能形态是建立在预测性、解释性、行为性及其他更成熟的AI方法论基础之上的。AI正逐渐成为一个宽泛的总称,需要更具体的细分来界定讨论的范畴。仅仅将产品特性或功能称为“AI”,既无法向IT采购方充分描述其价值,也无法在AI概念泛滥的市场中脱颖而出。

由于AI带来的变革性前景,IT采购方正在大力投资AI项目及其所需的硬件基础设施。然而遗憾的是,IDC的研究表明,许多此类努力都未达预期;只有不到一半的AI试点项目能进入生产阶段。尽管成功率低的原因可能有很多,但我们认为,企业必须从以数据为中心的视角来审视AI项目。显然,数据质量和时效性是AI学习系统成功的基石;没有这些,AI项目便无法成功。IT组织仍在学习如何为支持各类AI工作负载而正确地配置和部署基础设施资产。在IT采购方寻找最佳基础设施的同时,IT供应商不仅需要使其解决方案与特定需求对齐,还必须清晰地阐述其带来的差异化优势。

AI就绪的数据存储基础设施(AI-Ready Data Storage Infrastructure, AI-RDSI)需要结合硬件和软件,并建立在传统技术之上。我们认为,AI-RDSI将涉及“嵌入式”AI以及AI工作负载的支持与优化。嵌入式AI指的是用于增强系统使用、性能、可靠性和运营效率的内部AI技术,并且它将针对其所嵌入的硬件或软件而特定化。例如,执行以往由人类负责的系统功能任务的AI代理(AI Agent)。这一层面的AI不同于工作负载AI,后者指的是支持和优化数据存储以服务于AI工作负载(如大语言模型(LLM)、代理等)的能力。优化AI工作负载的核心在于,能够以GPU、DPU和CPU集群所需的速度,提供完整、准确的数据集。

任何单一供应商都不太可能为所有人或所有用例提供一切所需。因此,供应商必须准备好在由合作伙伴和竞争对手组成的生态系统中运作,以提供全栈的AI基础设施产品。一些市场参与者将是系统供应商,另一些则是纯软件供应商。无论如何,我们预计竞争将基于清晰的差异化而变得十分激烈。那些能够最好地利用AI实现运营目标,并通过AI就绪的数据存储基础设施支持客户AI旅程的供应商,将最有能力在未来十年加速增长。数据存储供应商可以预见,这个市场将经历快速且不可预测的演变。在这样一个充满活力的市场中,今天热门的产品可能很快就会过时。在此期间,可扩展的架构、敏捷开发和响应迅速的市场营销将显得尤为重要。

定义AI就绪的数据存储基础设施

AI就绪的数据存储基础设施(AI-RDSI)定义如下:

以自动化的方式,识别相关数据,并对这些数据进行准备、摄入、存储、分类、管理、保护、保障安全、治理和移动,以满足人工智能应用需求的必要硬件、软件和服务。AI-RDSI还涵盖与AI工作负载相关的服务水平,包括性能和系统可用性;与数据质量相关的属性,如信任度和来源追溯;以及用于分析后数据处置的技术。

广义上讲,数据通过两种方式进入组织的计算机系统:一种是由内部运营产生的“有机”数据,另一种是从外部来源摄入的数据。IDC的全球数据圈(Global DataSphere)研究显示,2023年存储的数据中有92.3%是非结构化/半结构化数据,其余6.7%是结构化数据。IDC预测,到2028年,结构化数据的复合年增长率(CAGR)将达到18.3%,而非结构化/半结构化数据同期的复合年增长率将达到19.9%。此外,目前48%的数据位于本地,29%在云端,19%在边缘,其余4%在“其他”位置。尽管数据正逐渐向云端迁移,但这将是一个渐进的过程。所有这些数据,无论其格式或位置如何,都可能对AI工作负载具有价值。

数据调度(Data Logistics)与AI工作负载

数据一旦进入组织,就会经过一个被IDC称为“数据调度”的过程。以包裹运输作类比,数据调度是将数据从其源头运送至目的地,并保证交付、质量、安全和时效性的过程。数据调度为AI-RDSI提供了基础,但AI工作负载对此提出了更高层次的严苛要求。图1展示了AI环境中数据的调度旅程以及该旅程中的技术要素。读者应注意图1底部的渐进箭头。这个箭头突出了数据从被摄入(外部来源)或创建(内部来源)开始的旅程。这种摄入可能来自本地工作负载或云端工作负载。从那时起,数据必须根据策略和工作负载性能要求进行存储。此外,数据必须被分类、索引和标记,以确保适当的治理。安全性、数据信任和保护是AI就绪的数据存储基础设施的基石。

AI就绪的数据存储基础设施:定义、分类、本体与未来展望-AI.x社区

图1.持AI的数据调度:从摄入到访问

在考虑AI-RDSI的定义时,同样重要的是要考虑哪些内容不包含在内。例如,虽然其中许多元素与数据生命周期管理(Data Life-cycle Management, DLM)共通,但DLM的完整范畴超出了本研究的范围。此外,针对AI模型自身的数据管理也不在本研究的讨论范围之内。

读者还会注意到,当数据被摄入到AI工作负载中时,也会发生数据探索类活动、数据治理、来源追溯等。这些活动与AI-RDSI的能力是相互独立且有区别的。这是一个重要的区分,因为IT团队可能会混淆两者,而没有意识到两者都可能是必需的,并可能被迫使用两种相互冲突且引发集成挑战的工具。

单一事实来源(Single Source of Truth)要求

IDC的研究发现,IT组织平均要处理6.4个数据孤岛。我们的研究进一步发现,这些IT团队必须管理13份数据副本,这些副本可能分布在主存储、二级存储、云和边缘存储中。出于多种原因,可能会创建多个数据副本,包括保护(备份)、测试/开发、分析和归档。所有这些对于运营都是有效且必要的。

多个数据副本给AI工作负载带来了特殊的挑战。尽管数据时效性在数据湖和数据分析应用中可能不那么重要,但对于AI而言,它可能至关重要。AI的准确性依赖于数据的准确性和时效性,以便及时学习并响应不断变化的需求——有时是实时的。从过时的数据副本中摄入数据可能导致AI学习模块“退步”。因此,在AI-RDSI中拥有副本数据管理(Copy Data Management, CDM)能力,或者一个跨所有存储的统一元数据环境以消除副本的创建,对于AI工作负载至关重要。了解哪个副本是最新版本、清理过时的副本,甚至管理一个“黄金副本”,都有助于确保AI模型始终基于单一事实来源进行工作。

支持AI的数据基础设施

AI工作负载可能是计算密集型的,使用数十个甚至数百个CPU和GPU的组合。为了优化这些成本高昂的资源,基础设施团队必须部署能够满足这些需求的存储系统。

向计算资源的数据交付不应导致计算周期空闲。图2展示了许多必要的存储特性。

AI就绪的数据存储基础设施:定义、分类、本体与未来展望-AI.x社区

图2.支持AI的数据基础设施

从图2中可以看出,数据基础设施存在五个主要属性。对这些属性的详细解释如下:

  • 性能。端到端的存储系统性能必须考虑AI工作负载的需求,包括数据吞吐量、每秒输入/输出操作数(IOPS)、延迟、必要的网络带宽以及性能密集型计算(Performance-Intensive Computing, PIC)的需求。实现高吞吐量可能需要使用并行文件系统或并行NFS(pNFS)等技术,而为了满足必要的IOPS和低延迟,则需要使用闪存或存储级内存。对于性能需求中等或较低的AI工作负载,可以采用分层存储、对象存储或硬盘驱动器(HDD)等技术,以实现成本效益。
  • 规模。AI工作负载需求的演变可能难以预测。虽然较小的项目可能不需要最大的可扩展性,但IT组织无疑应考虑潜在需求,并部署具有足够可扩展性的系统。
  • 服务水平。服务水平要求与性能密切相关,但更侧重于数据可用性。常见的服务水平包括数据可用性的“N个9”或总正常运行时间。五个九(99.999%)的正常运行时间将是AI工作负载的普遍要求,因为停机将极具破坏性。
  • 数据调度。数据调度策略引擎确保数据能够在正确的时间被交付到正确的位置,以实现AI优化。这将包括位置信息,同时确保遵守主权要求。
  • 数据信任。将尽可能多的数据提供给AI模型以优化学习的愿望,必须与对数据质量的需求相平衡。数据信任是数据质量的核心,通过建立适当的策略和程序来减少数据污染或篡改。

未来展望

当AI-RDSI交付给IT消费者时,它可以根据硬件、软件和AI特定分类法进行归类。一些IT提供商,如存储系统供应商,将为所有这三个分类法提供能力。这些系统必然是硬件特定的,尽管它们可能集成了来自其他来源的软件。独立软件供应商将提供许多能力,并试图在硬件无关的基础上实现这些能力。

任何单一供应商都不太可能提供AI-RDSI所需的所有能力。因此,审视解决方案的整体性以及各组件如何协同工作是非常有用的。图3展示了AI就绪的数据存储基础设施本体。

AI就绪的数据存储基础设施:定义、分类、本体与未来展望-AI.x社区

图3.AI就绪的数据存储基础设施本体

本体模型描述了元素之间的关系。图3展示了AI-RDSI各元素之间的关系,无论其来源、平台或交付机制如何。这个本体视图汇集了AI-RDSI的主要组成部分。每个组成部分都代表了价值链中的一个环节。IT供应商无需提供链中的每一个环节,但他们必须确定要“主导”哪些环节,以及通过合作伙伴关系或其他方式获取哪些环节。

图4详细说明了AI-RDSI所需的硬件功能。

AI就绪的数据存储基础设施:定义、分类、本体与未来展望-AI.x社区

图4.AI就绪的存储硬件系统功能

此AI-RDSI硬件分类法包括八类组件:

硬件抽象:虚拟基础设施已被充分证明能够为工作负载、工作负载迁移和数据位置提供更大的灵活性。

  • AI启示:AI(和机器学习)可用于辅助硬件部署配置、基于策略或服务等级协议(SLA)的动态性能优化、故障预测/检测、隔离和纠正。AI驱动的动态资源分配可以按需应用必要的资源,同时AI工作负载驱动性能需求并平衡其与其他工作负载的需求。

分层:存储基础设施最多使用四层存储类型,可能需要多种介质技术,如NAND闪存、存储级内存和HDD,每一层都有特定的性能要求。

  • AI启示:AI能力将能够根据工作负载需求或其他因素预测性地分配资源,并将数据移动到适当的层级以提供最佳性能。

数据访问:AI就绪的存储基础设施必须能够支持结构化和非结构化数据,以及块、文件和对象存储的协议/接口。每种访问方法都有其特定应用的用途。

数据格式:与数据访问要求类似,AI就绪的存储基础设施必须能够支持所有类型的结构化、非结构化和半结构化数据,以及用于高性能计算和数据湖的特定文件类型。

性能:AI工作负载数据生命周期的不同阶段对数据基础设施在IOPS、延迟和吞吐量方面提出了性能特性要求。平衡这些要求可能涉及某些权衡。

  • AI启示:AI能力应该能够将数据移动到适当的存储层或位置,以获得必要的性能特性,从而满足任何工作负载类型的需求。

并行与高性能文件系统:并行与高性能文件系统(High-Performance File Systems, HPFS)可以提供单一的全局命名空间和数据转换(概念上类似于ETL)服务。

  • AI启示:并行文件系统和HPFS可以减少数据孤岛,将数据暂存到最佳位置,并为AI工作负载需求转换数据。

扩展:出于多种原因,各种工作负载可能需要动态扩展和显著的节点数量扩展。数据的激增,尤其是在AI摄入和输出中的非结构化数据,可能导致巨大且不规则的容量需求。此外,存储系统架构可能是纵向扩展(scale up)或横向扩展(scale out),或具有元数据带外(out of band)的线性可扩展性。

  • AI启示:AI能力应该能够预测性地、动态地将数据移动到最适合工作负载需求的架构中。

部署:大多数组织使用本地、私有云、公有云和混合云的组合来支持其工作负载。AI-RDSI系统必须能在这个生态系统中工作。

  • AI启示:AI能力可以根据性能、成本、数据位置、隐私、法规遵从、数据主权要求、治理、安全和数据保护等复杂需求来优化数据布局。

应用访问:存储系统必须支持广泛的数据访问协议。

图5展示了AI-RDSI的软件分类。详细说明如下:

AI就绪的数据存储基础设施:定义、分类、本体与未来展望-AI.x社区

图5.AI就绪的数据存储软件分类

数据保护:AI环境的数据保护始于备份和恢复的基础。对于AI,还需要几种特定的相关能力。

  • 对数据恢复的AI启示:AI工作负载需要对AI数据存储进行有状态的保护。这些数据存储(例如,LLM和向量数据库)可能从多个来源实时收集数据。如果其中一个来源注入了不应被摄入的数据,例如专有IP、敏感或禁止的数据,甚至是恶意数据,IT团队必须有能力恢复到数据注入前的那个时间点,而不丢失来自其他来源的数据。快照可能是实现AI就绪数据恢复的关键技术,它能够出于法律原因审计和证明用于AI训练的数据。快照还可用于迭代和可重复性。
  • 对恢复编排的AI启示:由于数据恢复的复杂性,特别是在涉及影响数据子集的勒索软件攻击时,手动确定最佳恢复点和恢复方法既耗时又费力,可能将恢复延迟数天甚至数周。AI辅助的恢复编排可以帮助精确确定需要恢复的数据以及最快的恢复方法。AI辅助的恢复还可以考虑SLA要求,以调整基础设施和备份作业来满足这些SLA。
  • 对威胁检测的AI启示:尽管威胁检测应在网络和主存储系统中进行,但在二级备份存储中同样是必要的。根据IDC的研究,在近一半的攻击中,勒索软件攻击者会先攻击二级数据,再攻击主数据。因此,数据泄露的指标可能首先出现在备份中。AI异常检测应该能够关联看似无关的事件,并检测传统基于签名的检测方法可能无法发现的攻击活动。AI还应能协助检测数据存储中的恶意软件。

数据探索:数据质量是AI工作负载准确性和有效性的核心,而数据探索是数据质量的核心。

  • 对数据分组、索引和标记的AI启示:数据在存储时必须被准确识别和分类,以确保将正确的数据提供给AI模型。这可能是解决数据孤岛和数据冗余问题,从而确定AI数据供给的“单一事实来源”的关键。数据探索可以由AI驱动,但并非必须如此。
  • 对数据工作流管理的AI启示:处理数据并将其输入向量数据库或LLM将涉及各种工作负载,以移动数据、转换数据、将其转换为不同的存储类型等。利用AI基于策略引擎来编排这些工作流,可以减少人工操作并提高准确性。

数据信任:数据信任对于数据准确性和AI工作负载至关重要。数据信任与数据安全相关。关键支柱包括数据加密、不可变性、多因子认证(Multi-Factor Authentication, MFA)和基于角色的访问控制(Role-Based Access Control, RBAC)。

  • AI启示:与前述的二级存储一样,AI可以协助主存储上的威胁检测,以警报异常行为。AI还可用于自动化和自适应的事件响应。

数据治理:数据治理驱动着数据探索活动。数据的正确处理决定了数据是否必须被脱敏、加密、移动、保留在主权边界内、进行来源追溯等。

  • AI启示:适当的数据治理有助于提升数据的可靠性和信任度。治理为驱动数据探索的策略引擎提供信息。

图6展示了AI工作负载的优化分类。详细说明如下:

AI就绪的数据存储基础设施:定义、分类、本体与未来展望-AI.x社区

图6.AI工作负载优化分类

硬件加速:AI计算基础设施资源可能相当成本高昂;优化对于实现最佳的AI项目投资回报率(ROI)非常重要。

  • AI启示:将存储系统性能与计算资源需求相匹配,部分可以通过GPU-Direct数据访问来实现。

数据暂存:AI-RDSI的目标是提供最优质的数据来供给AI工作负载。因此,数据暂存是该过程的最后一步。

  • AI启示:由于与数据孤岛和多份数据副本相关的数据挑战,由数据探索引擎驱动的副本数据管理实用程序可以帮助确保AI工作负载的单一事实来源。CDM管理着众多的数据副本,无论是快照还是克隆/镜像,无论其位置在何处。一些CDM系统还可以创建数据的“黄金副本”,提供数据的虚拟视图,以促进在多个工作负载间的一致使用。

相关研究发现

在企业中,尤其是在北美地区,现有环境中数据安全和合规性的限制是阻碍AI更快应用的最重要的基础设施相关问题(50%的受访者)。

到2025年,对AI模型最重要的前三种数据类型是运营/事件流数据(43.5%)、主数据(40.6%)和半结构化业务文档(38.7%)。

在AI模型的设计、开发和部署过程中,与数据团队合作最多的前两个角色是ITOps(42.5%)和AIOps(25.8%)。

限制组织进一步评估或扩大使用GenAI的首要担忧是,GenAI会危及对数据和知识产权资产的控制(30%的受访者)。

为确保AI项目成功而实施的最重要或次重要的流程或策略是:实施数据共享和操作实践,以确保为内部开发或与第三方合作开发的任何大语言模型提供数据完整性(40%的受访者)。

给IT供应商的建议

审慎界定解决方案范围。从市场营销的角度来看,覆盖尽可能大的潜在市场总是理想的。然而,这有时会导致语言过于宽泛,可能包含或暗示了根本不准确的能力。这种不准确性可能导致客户幻想破灭和供应商信誉受损。我们认为,任何单一供应商都不太可能解决AI-RDSI的所有方面,因此,AI-RDSI供应商最好能明确阐述他们在生态系统中所扮演的角色。思考一下本体模型,并确定你的组织选择“主导”价值链中的哪些环节。

清晰阐述AI差异化。IT采购方希望了解供应商的解决方案与非AI解决方案或先前版本的解决方案有何不同。你的解决方案如何帮助确保数据既准确又及时?

构建互补的生态系统。了解自身能力和局限性的供应商将能够寻找互补的供应商进行合作,以便向客户交付完整的产品。客户通常不希望自己进行集成测试和认证。

发展嵌入式和AI工作负载支持。嵌入式AI指的是在存储解决方案内部使用的AI,用于增强AIOps、基础设施优化或数据优化。AI工作负载支持指的是优化和支持在存储系统上运行的AI工作负载的特定功能。AI-RDSI供应商很可能会同时提供嵌入式AI和AI工作负载支持。

为可扩展性和敏捷性构建解决方案架构。AI就绪的数据存储基础设施需求正在迅速演变。新的AI系统和技术正在不断涌现,这将改变存储需求。IT供应商必须准备好迅速转向支持这些新环境。

给IT采购方的建议

描述AI工作负载的特征。并非所有工作负载都相同。分析数十亿数据点的超大型LLM将需要与小规模、专注的代理式AI模型不同的基础设施能力。一刀切的方案并不适用,不同的供应商会将其“最佳应用点”定位于不同的工作负载。

识别“单一事实来源”。“垃圾进,垃圾出”这句古老的格言同样适用于AI,就像它适用于以往的技术一样。数据质量和数据时效性至关重要,AI开发者需要能够访问这些数据。副本数据管理、数据分类和标记可能在减少数据孤岛和定义单一事实来源方面发挥关键作用。

现代化数据存储基础设施。为了支持AI工作负载并最大化AI项目的成功率,投资于AI就绪的数据存储基础设施将是必要的。此外,随着系统达到其使用寿命终点,强调AI就绪的技术更新将有助于组织为应对不断演变的数据需求做好准备。

考虑数据版图。大多数组织都是混合多云环境,拥有本地和私有云数据存储库以及多个公有云环境。这些存储库通常在地理上是分布式的,甚至遍布全球。这种存储库的广泛分布可能导致数据孤岛,从而抑制数据利用的准确性。AI-RDSI将通过跨存储库的通用数据平面来解决这些问题。

寻找嵌入式AI。嵌入式AI,即解决方案内部的AI,可以提供许多好处。这些可能包括AI驱动的数据发现、分类和高级数据处理。其他嵌入式AI系统可能驱动动态基础设施配置、工作负载管理、SLA达成等。这些嵌入式AI能力将是解决方案之间的核心差异化因素。

像对待产品一样对待数据。自从GenAI问世以来,83%的组织已经改变了他们的数据战略,转而专注于支持AI计划、提高数据质量以及改善数据隐私和安全控制。将数据视为产品是AI计划成功的关键因素,它为训练AI模型提供集成、精选和受保护的数据,以提高结果的准确性和相关性。

参考资料:Goodwin, P., Nadkarni, A., Pearson, D., Sliwa, C., & Yu, J. (2025). AI-ready data storage infrastructure: Definition, taxonomy, ontology, and future outlook. IDC.

本文转载自​​​​​​​​Andy730​​​​​​​​,作者:常华​

收藏
回复
举报
回复
相关推荐