
DataAgent: 让AI自主管理数据
1. DataAgent研究现状
1.1 AI4Data 研究现状
过去十年,在AI赋能数据(AI4Data)领域,运用AI技术攻克了诸多难题:
- 从离线NP难题(如索引优化、视图推荐)到在线挑战(如查询重写)
- 从基数估计等回归问题到学习型索引等数据结构创新。
这些成果往往由于过度依赖专家调参,难以适应数据环境的变化。
1.2 Data4AI 研究现状
对于Data4AI领域,将数据库优化技术延伸至人工智能部署环节,包括:
- 数据库内机器学习(ML)训练与推理
- 数据预处理、数据清洗、数据集成
- 特征管理
- 模型管理
这些方法面临的主要挑战在于如何实现系统管线的自主编排,从而避免依赖高人工投入的运维方式。
1.3 Data + AI 核心难题
如上图所示,现有技术缺乏语义理解与自主决策能力。而大语言模型(LLMs)恰能补此短板。
所以,清华大学提出了"Data Agent"框架,通过三大核心能力重塑Data+AI生态:
- 知识理解
- 自主规划
- 自我进化
2. Data Agent技术架构
Data Agent 专为自主处理数据任务设计,集知识理解、自动规划和自我反思于一体。
核心架构包括如上图所示的6要素:
- 环境感知(Perception):智能体需实时感知数据生态,包括环境状态、任务需求、协作伙伴及工具资源。通过离线微调或预设提示模板实现精准对齐。
- 推理决策(Reasoning and Planning):既擅长拆解复杂任务为多级流程(规划),又能做出精准的单步判断(推理)。每个决策可能触发深度推理、二次规划,或调用专业工具获取领域知识。
- 工具调度(Tool Invocation):可灵活调用计算工具、领域数据库或环境指令集。通过模型上下文协议(MCP)实现标准化交互,确保跨系统信息无损传递,各类模型的中间推理结果皆可互通复用。
- 记忆系统(Memory):包含领域知识库(长期记忆)和用户会话记录(短期记忆),依托向量数据库高效管理。创新性引入反思记忆模块,持续优化决策质量。
- 进化机制(Continuous Learning):通过自我反思、强化学习和奖励模型实现能力迭代,使智能体越用越聪明。
- 多智能体(Multiple Agents):突破单智能体能力边界,通过多智能体协作矩阵应对复杂场景,显著提升系统鲁棒性与并行效率。
构建了三位一体的数据智能体架构(如下图)
数据理解与探索、数据引擎理解与调度、流程编排三大核心模块,图4展示了详细架构设计。
- 数据理解与探索智能体(Data Understanding and Exploration Agents):通过结构化数据组织提升智能体的数据发现与访问能力。核心组件包括:
统一语义目录:提供模式定义、元数据索引等结构化元数据系统,优化数据访问性能
数据编织层:通过异构数据链接与集成,形成统一数据视图
语义数据组织与索引:显著提升智能体数据处理效率该模块还将整合数据预处理、清洗、集成等工具,并制定高效的工具调度策略。
- 数据引擎理解与调度智能体(Data Engine Understanding and Scheduling Agents):专注于Spark、DBMS、Pandas、PyData等数据处理引擎的能力分析与任务调度。通过建立引擎能力画像,协调不同特长的引擎协作完成复杂任务。
- 流程编排智能体(Pipeline Orchestration Agents):根据用户自然语言(NL)查询和数据目录生成执行管道,其核心能力包括:
任务分解:将复杂任务拆解为可串行/并行执行的子任务
开放环境适应:利用大语言模型(LLM)的理解、推理与自反思能力应对NL查询与底层数据的开放性
管道优化:针对延迟、成本或准确率进行优化
引擎调度:调用引擎智能体高效执行管道
多智能体协作网络(如上图)包含三大引擎:
- 智能体优选系统:建立能力画像库,实现精准任务匹配
- 协同计算框架:通过A2A协议实现状态同步与群体智能
- 弹性执行引擎:支持串行/并行混合调度,具备故障自愈能力
工具调度中心依托MCP协议实现"即插即用",可智能匹配Pandas/PyData等数百种数据处理工具,构建动态能力组合。
3. iDataScience技术架构
基于以上DataAgent技术架构,清华团队开发了 iDataScience ,其技术架构如上图所示,采用了双系统架构:
- 离线基准构建阶段(Offline Data Agent Benchmarking):通过组合基础数据技能,打造覆盖全场景的智能体评估体系。
首先运用大语言模型对海量数据案例进行质量筛选和技能挖掘;
随后通过递归聚类建立技能层级体系,并依据使用频率或用户偏好为每个技能赋予权重;
最后基于权重概率采样核心技能,由大语言模型生成对应测试用例。
为确保在线评估的精准性,系统还构建了支持相似度检索的测试用例索引库。
- 在线智能调度阶段(Online Multi-Agent Pipeline Orchestration):当新任务到来时,系统自动拆解任务流、匹配最优智能体,并动态优化执行方案。包含两大核心机制:
局部调整:单个智能体层面的子任务修正
全局重构:基于中间结果的完整重规划
智能体优选机制(Data Agent Selection):通过微调的模型,将待处理任务与基准库中的测试用例进行向量化匹配,快速锁定Top K相似案例。综合评估结果后,选择综合得分最高的智能体。
流程动态编排(Multi-Agent Pipeline Orchestration):先由大语言模型基于智能体画像拆解任务依赖图,为每个子任务分配合适的智能体,并通过合并/细分等操作持续优化方案。执行时采用拓扑排序的并行流水线,同时支持两种弹性调整:
- 系统扩展性:支持通过文档解析快速接入新智能体。当资源允许时,可运行基准测试完善其能力画像,使其无缝融入现有调度体系。这种持续进化机制确保系统始终保持在最优状态。
本文转载自大语言模型论文跟踪,作者:HuggingAGI
