解锁数据工程的潜力:Agentic AI 的自主编排与优化

发布于 2025-6-12 00:07
浏览
0收藏

1. 引言

关于 ChatGPT(广义上为生成式 AI)的讨论现已演变为 Agentic AI。ChatGPT 主要是一个生成文本响应的聊天机器人,而 AI Agents 则能够自主执行复杂任务,例如完成销售、计划旅行、预订航班、雇佣承包商进行房屋工作、订购披萨等。图 1 展示了 Agentic AI 系统的演变。

解锁数据工程的潜力:Agentic AI 的自主编排与优化-AI.x社区

比尔·盖茨(Bill Gates)最近设想了一个未来,人们将拥有一个能够处理和响应自然语言并完成多种不同任务的 AI Agent。盖茨以计划旅行为例。

通常,这需要你亲自预订酒店、航班、餐厅等。但 AI Agent 能够根据你的偏好知识,代表你预订和购买这些服务。

Agentic AI 系统的核心特性是其自主性和推理能力,允许它们将复杂任务分解为更小的可执行任务,并以能够监控、反思和根据需要适应/自我纠正的方式编排执行。基于此,Agentic AI 有潜力颠覆当今企业中几乎所有的业务流程。

在本文中,我们从软件工程的角度,以一个业务流程为例进行探讨。虽然我们都同意高质量数据对于生成式 AI 和 Agentic AI 解决方案提供竞争优势至关重要,但我们将展示如何利用 Agentic AI 重新设计数据管理流程本身。

具体来说,我们展示了 Agentic AI 如何应用于两个核心数据管理流程:数据编目和数据工程(数据仓库),并概述了两种场景相关的任务特定 AI Agents。我们随后描述了一个 Agentic AI 平台的参考架构,并展示它如何在不断变化的业务和数据环境中以自持续的方式编排这些 Agents(用于数据管理)。

2. 数据管理简介

在一个理想(且简化)的世界中,数据管理平台的参考架构如图所示。

解锁数据工程的潜力:Agentic AI 的自主编排与优化-AI.x社区

结构化和非结构化的源数据被摄入 Bronze 层,在那里进行清洗和标准化,进入 Silver 层,进一步建模和转换为 Gold 层。此时,数据已准备好供商业智能(BI)和机器学习(ML)管道使用。

然而,在现实中,我们看到这些经过整理/处理的数据被移动到另一个位置,例如云存储桶或其他数据湖,作为 ML 训练和部署的一部分进行进一步转换。

因此,在企业环境中:

解锁数据工程的潜力:Agentic AI 的自主编排与优化-AI.x社区

MLOps 的数据(预)处理部分专注于将数据从源移动到 ML 模型,而不一定包括模型如何在数据上执行。这通常包括支持学习算法的一系列转换。例如,数据科学家可能选择构建线性回归管道或探索性因子分析管道来支持 ML 模型。

ML 训练和验证需要执行比传统提取-转换-加载(ETL)工具支持的更复杂的功能。

这在复杂的数据处理、聚合和回归中尤为常见。此处推荐的方法是使用有向无环图(DAG)流来补充数据处理策略。

与 BI 的线性数据流相比,DAG 流支持可扩展的有向图,用于数据路由、统计转换和系统逻辑。像 Apache Airflow 这样的工具支持 DAG 流的创作、管理和维护,这些流可以以编程方式与 ETL 管道集成。

不用说,这导致了 DataOps 和 MLOps 管道的冗余和碎片化。可以说,当前的 DataOps 更关注 BI/结构化分析,而 MLOps 则涵盖了包含数据(预)处理的完整 ML 管道。

数据平台供应商已经开始着手解决这个问题,我们看到了一些初步的解决方案。Snowflake 提供了 Snowpark Python API,允许在 Snowflake 内训练和部署 ML 模型,Snowpark 使数据科学家能够使用 Python(而不是用 SQL 编写代码)。

谷歌云平台(GCP)提供了 BigQuery ML,这是一个允许在 GCP 数据仓库环境中仅使用 SQL 训练 ML 模型的工具。类似地,AWS Redshift Data API 使任何用 Python 编写的应用程序都可以轻松与 Redshift 交互。这允许 SageMaker 笔记本连接到 Redshift 集群,并在 Python 中运行 Data API 命令。这种原地分析提供了一种从 AWS 数据仓库直接拉取数据到笔记本的有效方式。

3. Agentic AI 用于数据管理

在本节中,我们展示如何在企业环境中使用自主 AI Agents 重新设计上述数据管理任务,通过适应不断变化的数据环境来驱动业务价值(如图 4 所示):

•自动化数据管道(摄入、建模、转换);

•通过 AI 驱动的政策执行实现治理和合规的运营化;

•为实时业务决策提供洞察和预测。

解锁数据工程的潜力:Agentic AI 的自主编排与优化-AI.x社区

接下来,我们展示 Agentic AI 对两个核心流程的编排:数据编目和数据工程(数据仓库)。

3.1 数据编目的 AI Agents

自主 Agents 可以通过自动化数据发现、分类和元数据丰富来颠覆数据编目。这需要编排多个 AI Agents,提供跨异构系统的端到端数据编目。这些 Agents 持续从用户交互中学习,确保实时元数据更新、智能实体识别和上下文标记。

核心数据编目 Agents 包括(如图所示):

解锁数据工程的潜力:Agentic AI 的自主编排与优化-AI.x社区

Supervisor Agent:扫描企业源系统以发现新的相关数据,分配和调度任务给其他 Agents。

Data Discovery Agent:执行自主实体提取,检测关系并应用元数据丰富。

Data Integration Agent:与 ERP、CRM 等企业系统无缝集成,支持实时编目更新。

Metadata Validation Agent:执行元数据一致性检查,检测重复项,确保关系映射的准确性。

Data Observability Agent:持续跟踪数据血缘,应用安全和访问控制策略,确保合规性。

3.2 数据工程的 AI Agents

Agentic AI 可以通过自动化数据管道、查询优化和模式演变来革新数据仓库。这需要编排多个专门从事数据仓库关键领域的 Agents:数据摄入、建模、转换和洞察生成。

核心数据工程 Agents 如图 6 所示:

解锁数据工程的潜力:Agentic AI 的自主编排与优化-AI.x社区

Supervisor Agent:调度批处理和实时作业,自动化从批处理和流式源摄入数据。

ETL Agents:提供数据管道的端到端自动化,包括数据摄入、建模和转换。

Data Quality Agent:执行数据质量、完整性和一致性检查,消除重复记录等。

Data Modeling and Tuning Agent:根据模式漂移检测和用户查询趋势动态调整模式和索引,自动适应表结构。

Data Observability Agent:持续监控数据仓库性能,自动调整数据管道以提高速度和成本效率。

3.3 数据管理的 Agentic AI 参考架构

在本节中,我们概述了数据管理 Agentic AI 平台的关键模块(如图 7 所示):

推理模块:分解复杂任务并调整其执行以实现给定目标;

Agentic 市场:现有和可用 Agents 的市场;

编排模块:编排和监控多 Agents 系统的执行;

集成模块:与企业源系统集成;

共享内存管理:用于 Agents 之间的数据和上下文共享;

治理层:包括可解释性、隐私、安全等。


解锁数据工程的潜力:Agentic AI 的自主编排与优化-AI.x社区


给定一个用户(数据管理)任务,Agentic AI 平台的目标是识别(组合)能够执行该任务的 Agent(或 Agents 组)。因此,我们需要的第一个组件是一个推理模块,能够将任务分解为子任务,并通过编排引擎协调相应 Agents 的执行。

解决此类复杂任务的高级方法包括:(a) 将给定复杂任务分解为(层级或工作流中的)简单任务;(b) 组合能够执行这些较简单任务的 Agents。这可以通过动态或静态方式实现。在动态方法中,给定复杂用户任务,系统根据运行时可用 Agents 的能力制定计划以满足请求。在静态方法中,给定一组 Agents,在设计时手动定义组合 Agents,结合它们的能力。

链式思考(Chain of Thought, CoT)是目前最广泛使用的分解框架,用于将复杂任务转化为多个可管理任务,并揭示模型思考过程的解释。

Agent 组合意味着存在一个 Agent 市场/注册表,包含 Agent 能力和约束的明确描述。在这种情况下,相关的数据管理 Agents 包括:

•Data Discovery Agent

•Data Processing Agent

•Data Modeling Agent

•Insights Generation Agent

•Data (and Metadata) Quality Agent

•Data Observability Agent

鉴于需要编排多个 Agents,需要一个支持不同 Agent 交互模式的数据集成模块,例如 Agent 到 Agent API、Agent API 提供供人类消费的输出、人类触发 AI Agent、AI Agent 到 Agent 且有人类参与的循环。这些集成模式需要底层 Agent OS 平台支持。

吴恩达(Andrew Ng)最近从性能角度讨论了这一点:

今天,许多 LLM 输出是供人类消费的。但在 Agentic 工作流中,LLM 可能被反复提示以反思和改进其输出、使用工具、计划和执行多个步骤,或实现协作的多个 Agents。因此,我们可能在向用户显示任何输出之前生成数十万甚至更多的 token。这使得快速生成 token 非常重要,而较慢的生成速度则成为充分利用现有模型的瓶颈。

这包括与多个企业源系统(例如 ERP、CRM)集成,这在大多数用例中都是必要的。例如,Anthropic 最近提出的模型上下文协议(Model Context Protocol, MCP)可将 AI Agents 连接到存储企业数据的外部系统。

鉴于此类复杂任务的长时间运行特性,内存管理对 Agentic AI 系统至关重要。

这包括任务之间的上下文共享以及长时间保持执行上下文。

标准方法是将 Agent 信息的嵌入表示保存到支持最大内积搜索(MIPS)的向量存储数据库中。为了快速检索,使用近似最近邻(ANN)算法,返回大约 top k 最近邻,牺牲一定准确性以换取巨大的速度提升。

最后是数据治理模块。我们需要确保用户针对特定任务共享的数据或跨任务的用户配置文件数据,仅与相关 Agents 共享(表/报告认证和访问控制)。请参阅我之前的文章《负责任的 AI Agents》,讨论了在幻觉防护、数据质量、隐私、可重复性、可解释性等方面启用良好治理的 AI Agent 平台所需的关键维度。

4. 结论

Agentic AI 是一个强大的范式,有潜力颠覆当今企业中许多业务流程。本文聚焦于数据管理流程。虽然我们通常关注“数据”方面,以提供高质量数据来启用 Agentic AI 系统,但我们展示了如何利用 Agentic AI 重新设计数据管理流程本身。

具体来说,我们将 Agentic AI 应用于两个核心数据管理流程:数据编目和数据工程(数据仓库),概述了两种场景相关的任务特定 AI Agents。我们最后描述了一个 Agentic AI 平台的参考架构,可以以自持续的方式组合和编排这些 Agents(用于数据管理)。

鉴于数据对所有 AI(包括生成式 AI 和 Agentic AI)的重要性,我们相信高效(Agentic AI 赋能的)数据管理有潜力通过自主适应不断变化的企业流程显著驱动业务价值。

本文转载自​AI大模型观察站​,作者:AI大模型观察站

已于2025-6-12 09:57:46修改
收藏
回复
举报
回复
相关推荐