
数据驱动的科学:AI如何革新HPC领域
对许多从事高性能计算(HPC)的人而言,工作流程大致如此:科学首先用微分方程刻画世界;只要解出或近似这些方程,就能追踪模型随时间的演化——天气预报便是典型例子。而在量子力学里,积分微积分则被用来预测原子与分子的能级。
所有这些方法的核心都是基于理论或第一性原理(基本物理规则)的模型,这些模型反映了自然界的行为方式。最终的仲裁者当然是自然,而模型根据各种因素提供不同程度的准确性。有些模型表现出色,通常需要大量的计算时间来遍历所有数学运算。
经典粒子(质量为m)的运动学量:位置r、速度v、加速度a。
高性能计算(HPC)自诞生以来便以这种方式发展。随着可移植FORTRAN编程标准的引入,开发者可以专注于开发和改进其计算模型,而无需针对各种机器的细微差别和差异进行编程。这些模型统称为“模态仿真(Modsim)”(模型与仿真),并持续推动HPC市场向更大、更快的机器发展。
各种超级计算设计已被开发用于运行模态仿真(Modsim)代码。从最初的向量处理器到并行集群和大规模并行GPU,HPC以利用任何可用硬件或软件来增加模型规模和/或性能而闻名。
大规模人工智能(AI)建模的出现改变了这种久经考验的HPC计算公式。大型AI模型可以在模态仿真(Modsim)数据上进行训练,生成“数据模型”,这些模型能够以更少的时间准确求解传统数学模型,而无需求解底层的物理原理。
这个出人意料的结论在传统HPC从业者眼中既引人注目,又在某种程度上是“亵渎神灵”的。受物理定律约束的过程,如何能“仅仅通过数据”进行建模?
物理学的结构
暂且不提对通用人工智能(AGI, Artificial General Intelligence)的追求,我们来思考当前生成式AI大型语言模型(LLM, Large Language Model)的运作方式。通过对大量文本数据进行采样,它们学习了英语中Token(单词)之间的统计关系。(这种分析也适用于其他语言,并且大多数模型都是基于从互联网上抓取的英语内容。)众所周知,LLM利用这些关系,根据用户提示来补全句子、段落乃至书籍。例如,一个LLM可能会生成以下句子:
带把伞,因为明天会
根据所学习的模型,下一个词有很高的概率是“下雨”、“细雨”、“暴风雨”,或与“下雨”相关的其他词或短语。选择取决于LLM的温度(Temperature)设置;低温度意味着选择最可能的词,高温度意味着随机选择一个候选词。低温度也意味着对相同提示的回答几乎相同,而高温度将提供不同的响应。如果设置过高,则会导致完全随机的响应。温度设置会影响LLM中的幻觉(即错误的词或短语)。
LLM的有效性在于它们能够识别英语中的关系结构。语言存在一定的结构或规则,没有它,语言将无法存在。语言的结构是灵活的,提供了多种表达相同事物的方式组合,这就是为什么LLM中的温度是使响应听起来更像人类的有效方式。(例如,我们甚至可以理解《星球大战》中的尤达大师。)
语言中有一个结构更为受限的领域,那就是计算机软件。编程语言具有非常具体的结构,并且仅限于一组基本词汇或操作。像自然语言一样,它们仍然允许许多不同的路径通向相同的结果,但与典型的LLM提示的响应不同,计算机程序可以自动检查其准确性,并且可以轻松过滤掉错误的结果。
科学,包括物理学、化学和生物学,也具有一种结构或规则,这种结构或规则最终由科学定律决定,例如牛顿运动定律或量子力学中的薛定谔方程。科学模型所依据的数学所施加的结构通常比人类语言的结构更严格。
即使是混沌(例如流体流动)的研究也具有与之相关的结构或规则。混沌系统曾被认为是难以处理的,其特征是无序的随机状态。然而,在混沌行为中,存在着潜在的模式、相互连接、持续的反馈循环、重复、自相似性、分形和自组织。
对物理定律的遵循为物理系统中的关系提供了结构。通过AI训练,这种结构塑造了物理系统各个方面之间的关系,所有这些都可以被模型学习。由于这些模型是数字而非文本,它们通常被称为大型定量模型(LQM, Large Quantitative Model)。这种学习类似于LLM如何通过一个词与文本语料库中其他词的关系来定义它。
计算中的验证
迄今为止,最大的成功或许是Alphabet(谷歌)DeepMind的AlphaFold所取得的成果,它利用AI根据初始肽链(由细胞DNA序列定义)来确定蛋白质如何折叠。使用传统模态仿真(Modsim)方法计算可能的蛋白质构型被认为(并且仍然是)一个计算上困难的问题,因为可能的组合(折叠类型)数量极其庞大。AlphaFold在现有蛋白质数据上进行训练,并通过消除不太可能的结构来限制搜索;它已成为确定蛋白质结构(或至少消除不太可能的结构)的事实方法。AlphaFold的作者,谷歌DeepMind的Demis Hassabis和John Jumper,分享了2024年诺贝尔化学奖的一半,该奖项是“为了蛋白质结构预测”而颁发的。一个类似的开源工具OpenFold也向科学界开放,它使用相同的AI增强方法来加速模态仿真(Modsim)计算。
除了蛋白质折叠之外,AI增强型HPC还有许多其他例子。正如HPCwire文章所描述的,Aurora AI驱动的大气模型比传统系统快5000倍,据Aurora模型的开发者微软(不要与Argonne的Aurora超级计算机混淆)称,该模型在以前的天气数据(计算和测量)上进行训练,其预测速度比数值集成预报系统快约5000倍。Aurora数据模型的准确性(与模态仿真Modsim结果和实际天气相比)与传统数值模型相同或更优。它可以通过增加数据集多样性和模型大小进行“调优”。
最近,伯克利实验室与Meta合作,发布了Open Molecules 25 (OMol25)和Universal Model for Atoms (UMA)供公众使用。Open Molecules是一个包含超过1亿个3D分子快照的集合,其性质已使用密度泛函理论(DFT, Density Functional Theory)计算。DFT是一种极其强大(且计算开销大)的工具,用于建模原子相互作用的精确细节,使科学家能够预测每个原子上的力和系统的能量,这反过来又决定了分子运动和化学反应,从而决定了更大尺度的性质,例如电解质在电池中如何反应或药物如何与受体结合以预防疾病。使用传统分子动力学模拟(DFT)结果来训练机器学习模型可以提供相同水平的分子预测,但比传统DFT分子动力学模拟数值方法快10,000倍。
我们如何知道答案是正确的?
对AI持怀疑态度是合理的。请记住,“AI”一词涵盖了广泛的方法论,本身并没有严格的定义。AI方法的不同形式可能利用能够使计算机模拟人类学习、理解、问题解决、决策、创造力和自主性的技术。AI应用范围从基本的统计监督学习模型到由OpenAI、Google、Meta等公司提供的大型LLM。
更大的模型和通用人工智能(AGI)的主张正受到持续的审视。无论是由于缺乏“世界观”而下棋(表现不佳),还是无法解决超越记忆解决方案的经典AI难题“汉诺塔”,最新、最强大的LLM仍然存在一些不足之处。此外,LLM的幻觉并非没有后果,正如作为法庭文件一部分提交的虚构法律幻觉的增长所表明的那样(有人没有检查他们的工作)。
这些担忧对于任何形式的AI都是有效的,包括数据过拟合或欠拟合、特征生成、数据溯源等问题。LLM和科学模型之间的关键区别在于对物理结构与语言结构的依赖。作为优秀的科学家,计算结果总是需要与现实世界进行验证。
衡量任何计算值准确性的唯一方法是将其与物理系统进行比较。例如,许多原子和化学性质可以通过模态仿真(Modsim)程序计算。解决方案的一部分可能是几何和/或能级,可以通过与现有(或测量)光谱信息进行比较来验证。现实永远是最终的检验标准。
在上述DFT示例中,结果的验证至关重要。数据模型带来的运行时间缩短无疑将导致基于DFT的方法使用量增加。最近一篇题为《如何通过可复现和通用工作流验证密度泛函理论实现的精度》(How to verify the precision of density-functional-theory implementations via reproducible and universal workflows)的论文,由四十五位作者共同撰写,表明了对模态仿真(Modsim)和AI增强型HPC方法验证的重视。
AI用于科学有所不同
关于AI的一个常见误解是它将取代现有流程和系统。虽然这个目标在其他领域可能成立,并且历史上计算机通常也是如此,但HPC数值模态仿真(Modsim)方法是正在开发的新AI数据模型不可或缺的一部分。事实上,为了训练HPC-AI模型,准确的数据是必需的。HPC领域比企业领域具有显著优势,因为它可以使用既定的数值建模和仿真(Modsim)方法创建自己的模型数据。此外,这些数据可以根据所需的特定模型训练类型进行微调。例如,如果需要特定类别的分子,可以生成示例并用于训练针对此特定情况的模型。
此外,科学以及HPC具有企业领域所不具备的要求,包括可复现性、开放性、协作和文档(如研究论文所示)。在科学领域,信息的创建和数据流非常不同。
需要明确的是,AI增强型HPC所提供的加速不一定是“免费午餐”。训练模型所需的计算资源可能会抵消数据模型的速度增益;然而,这取决于模型的训练是多么具体或通用。
未来将如何发展?
传统模态仿真(Modsim)结果与基于数据的AI模型之间的协同性质,以及必要的大数据管理方法,已经创造了一个数据发现的良性循环,这将加速科学发现。如下图所示,一个循环可以建立在每一个过去的发现循环之上。考虑图中的每个步骤:
- 科学研究与HPC: 重大挑战性科学需要HPC能力,并有能力生成大量模态仿真(Modsim)数据。
- 数据馈送AI模型: 数据管理至关重要。大量数据必须进行管理、清洗、整理、归档、溯源和存储。
- “数据”模型改进研究: 借助数据洞察,AI模型/LLM/LQM分析模式,从示例中学习,并进行预测。HPC系统是用于训练、推理和预测步骤1的新数据所必需的。
- 持续迭代
AI增强型科学的机会并未被忽视。万亿参数联盟(TPC, Trillion Parameter Consortium)的成立旨在解决AI和科学的独特需求。正如已经概述的那样,科学发现的需求与企业组织的需求截然不同。特别是,对开放数据和流程的要求对于科学进步至关重要。TPC是一个开放社区,基于并向所有有兴趣利用AI方法进行HPC和科学的科学家和工程师开放,包括编程、代理系统、AI增强型模型和报告。
----------
参考资料:Eadline, D. (2025, July 10). The unlikely reasonableness of AI-augmented HPC. HPCwire. https://www.hpcwire.com/2025/07/10/the-unlikely-reasonableness-of-ai-augmented-hpc/
本文转载自Andy730,作者:常华
