提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案 原创

发布于 2025-8-28 11:56
浏览
0收藏

在当下的高能物理研究领域,前沿大科学装置无刻不在生产着海量数据。当前所未有的数据洪流远超传统分析方法的处理极限,人工智能技术,尤其是机器学习和深度神经网络,迅速成为贯穿高能物理研究链条的核心工具。 AI 算法不仅能高效处理巨量原始数据,从数据中挖掘出隐含的、非线性的复杂模式与关联,同时还在加速器运行优化、探测器性能模拟、实验触发系统设计以及理论模型探索等方面展现出应用优势。人工智能方法的持续创新与深度整合,已成为推动高能物理未来发展的潜在动力。

在 2025 CCF 全国高性能计算学术大会上,高能物理研究所计算中心 AI4S 负责人张正德研究员在「AI-Ready 科学数据技术」专题论坛中,以「基于大模型的数据加工智能体进展与实践」为题,从目前大装置科学数据状态出发,系统阐述了针对数据的高效、高质量 AI-Ready 化构建方案,以及智能体和多智能体框架在数据标注和供给的应用。

提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案-AI.x社区

HyperAI 超神经在不违原意的前提下,对张正德老师的演讲分享进行了整理汇总,以下为演讲实录。

AI-Ready 数据与科学数据现状

在 AI4S 算法开源的背景下,数据已成为最关键的核心问题。 AI4S 要求数据具备统一规范以实现高效分析,虽然来自大科学装置的数据普遍具有统一的格式与存储架构,但实际来看,大部分科学数据并不是 AI-Ready 的。

高能物理领域产生的大规模数据,不仅对数据的采集、处理、加工与融合技术提出了要求,同时也为发展 AI 方法提供了重要资源。今天报告中提到的数据类型,不仅包括实验数据,还涵盖模拟数据、装置运行数据、语料数据。

AI-Ready 数据集的通用定义,是能够被高效、安全可复现的用于训练、评估和部署机器学习和人工智能的数据集合。高质量 AI-Ready 数据具备 10 个特征:

任务适配。与目标场景、任务强相关,需具备覆盖面和代表性;

高质量与一致性。准确、完整、一致,去重,噪声可控;

符合本体与标注要求,具有高质量标签、层次、本体映射关系,标注有审计;

工程可用。机器可读,如具备标准格式、合理分片/分桶、可流式、可并行;

可评估且可复用。严格划分训练、测试、验证数据,基准集具有明确、合理的评价指标;

元数据和丰富性。涵盖元数据的采集方式、时间、设备系统、上下文、版本等信息;

数据偏差控制。如采样偏差、标签偏差、历史偏差;

可获取。稳定访问接口,文档与示例;

合理合规。许可和使用权、隐私保护、最好 PII;

安全可靠。加密(传输/静态)、最小权限、秘钥管理等。

在实际研究中,数据不仅用于训练模型,还必须能够支持模型评估,因此数据集需建立相应的评估指标,例如准确率、召回率和 F1 分数等。然而,这类指标在一些任务(如分类)中可通用,却难以有效适用于回归等问题,这对 AI-Ready 数据集的质量提出了更高要求和挑战。

目前,一个合格的 AI-Ready 数据集除包含本体数据与标注数据之外,还应提供元数据,其中包括对 AI 任务的描述等信息。更重要的是,AI-Ready 数据集需与有价值的 AI 任务直接关联。以光源为例,其 AI 应用应能够有效支持成像、谱学、衍散射等具体科学任务。

提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案-AI.x社区

光源 AI 应用与 AI-Ready 数据集任务支持示意图

接下来我用 2 个例子来说明什么样的数据集是 AI-Ready 的数据集。例如纳米纤维取向预测 AI 数据集,它有明确的 AI 任务,即在输入广角衍射谱后直接预测纳米纤维的取向参数。构建这样一个数据集,需要模拟数据和实验数据共同作用。

提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案-AI.x社区

纳米纤维取向预测 AI 训练数据集结构 [1]

又比如,叠层成像快速重建 AI 数据集能够完成输入衍射图样,预测相位和振幅,计算得到重建图像的 AI 任务,完成重建图像过程中涉及到的大量计算。该架构中包含 2 个分支,分别预测相位和振幅,其真值通过科学计算迭代算法和高投影数计算得到。

提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案-AI.x社区

叠层成像快速重建 AI 数据集及其计算流程图 [2]

将智能体技术用于数据加工

智能体(Agent)的定义与人工智能的最初定义非常接近,指能够依据其知识、程序、环境与输入信息,代表用户自主做出决策或执行动作的软件或系统。

虽然智能体与自动化技术有相似之处,但后者通常依赖固定流程运作,而智能体与传统自动化不同,尤其适合处理确定性规则无法有效覆盖的工作流程,能够处理传统基于规则的计算方法难以胜任的任务。智能体并非适用于所有场景,其有效性高度依赖于具体任务环境,需充分考虑决策和处理的复杂性,因此,构建智能体需重新思考系统应如何应对复杂决策过程。

智能体的大脑是大模型,所以智能体与大模型的关系实际上是包含关系。智能体与大模型的不同在于,其包含了感知层、执行层、记忆层和处理中枢等架构,能够学会领域专业知识、科学分析工具、感知数据和元数据、编写代码和执行程序、任务规划以及角色分配和协同等。

提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案-AI.x社区

智能体架构

同时,单智能体和多智能体的应用场景也有所不同。一般来说,单智能体搭载单个工具,当搭载的工具数量增加时,选择工具的时候准确率就会下降,此时可以通过多智能体以避免混淆。

提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案-AI.x社区

Open Dr.Sai 智能体和多智能体框架和应用 [3]

基于标注工具的 AI-Ready 数据标注精度高但人工参与度高,基于智能体的 AI-Ready 数据标注则自动化程度高,效率高,同时可提供数据信息理解和辅助,适合学科交叉领域研究,但是初始精度可能相对较低,需要通过持续学习和反馈机制不断改进标注精度。目前,很多基于标注工具的标注已经逐渐向「搭载智能体模块+人机交互+智能辅助+审核系统+数据库」的模式过渡。

应用于光源场景的数据智能体

我们团队做的数据智能体主要应用于光源(HEPS)/中子源(CSNS)场景,支持数据的加工和供给。智能体的上游是 Domas 数据管理系统(Data Management System),Domas 的上游是大数据装置的采集系统,采集系统上游是探测器本身。

有关数据智能体的更多信息:

​https://github.com/hepaihub/drsai​

HepAI 平台链接:

https://ai.ihep.ac.cn

该智能体工作流程分为 5 步:

* 接入 Domas,获得包括实验数据、元数据在内的数据信息;

* 基于所获数据更新知识库;

* 智能体根据具体任务进一步感知数据,通过数据格式转换和执行命令完成数据交互;

* 调用多种科学计算工具对数据进行加工处理;

* 将数据输入执行器推动任务执行,并将输出结果反向输入 Domas 。

提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案-AI.x社区

智能体架构演示

目前,该智能体已经可以用于构建跨装置的 X 射线衍射和中子粉末衍射实验和模拟的 AI 数据集、构建对分布函数(PDF)的实验-仿真融合数据集。

提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案-AI.x社区

跨装置 X 射线和中子粉末衍射实验和模拟人工智能数据集

提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案-AI.x社区

对分布函数(PDF)的构建实验-仿真融合数据集

AI 驱动的科学发现系统

之所以把智能体技术用于数据处理方面,是因为 AI4S 已经逐渐成为发展趋势。 AI 有助于高能物理的研究发现,但是对数据有要求,因此我们采用了「AI4Data」到「Data4AI」的策略,利用 AI 将原始数据转化为 AI-Ready 的形式,以促进成果研发,构建 AI 驱动的科学发现系统。

提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案-AI.x社区

「AI4Data」与「Data4AI」示意图

关于张正德研究员及其团队

张正德博士是中国科学院高能物理研究所特聘青年研究员,毕业于中国科学院上海应用物理研究所,粒子物理与原子核物理理学博士,主要研究方向为面向科学发现的 AI 算法、大模型及智能体,涵盖深度学习算法、面向科学数据的大模型、人工智能平台和软件系统等,主要目标为推动 AI 在粒子物理、粒子天体物理、同步辐射、中子科学和加速器领域的应用。

提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案-AI.x社区

目前,张正德研究员已在 GitHub 上发布了 6 个具有代表性的开源项目,发展了 CDNet 、 FINet 、 MWNet 等神经网络,研发了高能·溪悟大语言模型和「赛博士」科研智能体,并规划和建设了高能物理人工智能平台 HepAI[4],同时主持了多项重要科研项目,包括「从 0 到 1 项目-AI 大模型驱动高能物理科学发现的研究」和「基于人工智能的高能物理大数据技术研究与示范」等。

参考文献:

[1] Fast extraction of three-dimensional nanofiber orientation from WAXD patterns using machine learning. IUCrJ, 10, 3 (2023). https://doi.org/10.1107/S205225252300204X 

[2] AI-enabled high-resolution scanning coherent diffraction imaging. Appl. Phys. Lett. 117, 044103 (2020). https://doi.org/10.1063/5.0013065

[3] hepai-group. (n.d.). Open drsai [Computer software]. GitHub. https://github.com/hepaihub/drsai

[4] hepai-group. (n.d.). HepAI Platform. https://ai.ihep.ac.cn

一键获取 2023—2024 年 AI4S 领域高质量论文及深度解读文章 ⬇️

提升科学数据可用性,中科院张正德团队提出基于智能体的 AI-Ready 数据加工和供给方案-AI.x社区


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐