
能 “替科学家写代码” 的 AI 来了!谷歌新系统突破科研瓶颈,加速科学发现
谷歌全新人工智能系统将大型语言模型(LLMs)与树搜索(Tree Search)技术相结合,实现了专家级科学软件的自动化创建。通过将研究重构为“可评分任务”,该系统在生物信息学、流行病学和神经科学领域展现出超越人类的性能,预示着加速科学发现的新时代到来。
假设你是一名科学家,正凝视着屏幕。你的目标是研究亚马逊雨林的森林砍伐问题——你已掌握拍字节(PB)级别的卫星数据,但要将这些原始数据转化为可靠的“森林砍伐检测工具”,还需要专门的软件支持。这绝非普通软件,而是实证软件(empirical software) ——一组复杂的代码组合,需经过精心设计,以最大化单一可测量的质量分数。从数据预处理到模型架构,每一个选择都如同道路的岔路口,而可供选择的路径几乎无穷无尽。
你该如何选择?
数十年来,答案始终离不开深厚的领域专业知识、直觉判断、有根据的猜测,以及耗时费力的反复试验。这一过程——即实证软件的人工创建过程——是制约现代研究发展的“隐形痛点瓶颈”。它效率低下、枯燥繁琐,且严重受限于人类的能力边界:我们只能探索极小部分可能的解决方案。
若能改变这一现状呢?若能构建一个不仅能协助科学家,还能主动代其探索这片广阔可能性空间的系统呢?
谷歌团队发表的一篇突破性论文《一款助力科学家编写专家级实证软件的人工智能系统》(“An AI system to help scientists write expert-level empirical software”),恰好揭开了这类系统的面纱。这并非人工智能辅助编码领域的又一小步迭代,而是人类探索计算科学方式的根本性范式转变。该团队开发的人工智能系统能够系统性地自动生成科学软件,且在众多学科领域中,其性能不仅能与人类持平,还能持续超越人类专家。
接下来,我们将深入探讨谷歌如何打造出这款能够加速科学本身发展的人工智能。
科学领域的隐形瓶颈:实证软件的“创建之痛”
在深入了解谷歌的解决方案前,我们首先需要认清问题的严重性。如今,从基因组学到天体物理学,几乎所有学科都依赖软件来验证假设、实现发现。其中大部分软件被论文称为“面向可评分任务的实证软件”。
可评分任务(Scorable Task):指可通过明确指标衡量解决方案质量的科学问题。例如,预测新冠病毒(COVID-19)住院人数就是一项可评分任务,其中“加权区间分数(Weighted Interval Score,WIS)”即为质量指标。而用于实现该预测的软件就是实证软件。
创建这类软件堪称一项“赫拉克勒斯式的艰巨任务”。尽管实证软件曾助力化学、蛋白质折叠等领域取得诺贝尔奖级别的突破,但其创建过程始终停留在“手工匠人式”的阶段。科学家们往往被迫基于直觉或便利性做出无数设计选择,而非通过全面的实验验证。
- 我应选择哪种统计模型?
- 如何预处理这些含噪声的数据?
- 哪些超参数能带来最佳结果?
- 是否应结合两种不同的理论方法?
每个问题都代表一个分支节点。潜在程序的总数构成了一个“解决方案空间”,其规模之庞大,任何人类团队都无法完全探索。我们找到的只是“足够好”的解决方案,但在那些未被探索的分支中,几乎必然隐藏着具有革命性的发现——而这些发现正被我们遗憾地错过。
这一局限严重拖累了科学进步的步伐。若能更高效地探索这片解决方案空间,我们本可以为更多疾病建立模型、预测更多气候模式。
谷歌的解决方案:能“撰写科学”的人工智能系统
谷歌团队的核心洞见在于重新定义这一挑战的本质:不再将软件创建视为人类执行的任务,而是将其视为人工智能可解决的“搜索问题”。最终目标是:在广阔的解决方案空间中,找到能最大化质量分数的特定程序。
为实现这一目标,团队构建了一个如同“不知疲倦、才华横溢且极具系统性的研究助手”的系统。它基于一个简单却深刻的反馈循环运行:提出方案→测试验证→学习改进→循环迭代。
该系统的核心由两个协同工作的组件构成:
- 创意编码器(大型语言模型——LLM):这是系统的“创新引擎”。给定问题描述和当前最优代码后,LLM的任务是重写代码,提出可能提升分数的智能“变异(mutation)”。它就像一位出色的程序员,能根据高层级思路,瞬间生成代码的新版本。
- 策略主导者(树搜索——TS):这是系统的“核心大脑”。若缺乏策略指导,生成无数代码变体将毫无意义。树搜索算法会智能引导探索过程:它会构建一个包含所有已尝试代码解决方案的“树结构”,记录有效与无效的方案。关键在于,它会通过平衡“利用(exploitation)”与“探索(exploration)”来决定下一步探索的路径——“利用”指对已有高分程序进行小幅调整,“探索”则指尝试全新且具有风险、可能带来重大突破的思路。
不妨将其比作国际象棋大师:树搜索算法如同大师,俯瞰全局棋盘并规划多步之后的走法;而LLM则像大师可咨询的一组世界级棋手,大师会向他们提问:“从当前局面出发,有哪些有创意的走法可尝试?”随后,大师会综合这些建议,选择符合整体获胜策略的走法。
这种组合将缓慢的人工科学编码过程,转化为自动化、系统性且可规模化的“高分解决方案搜索过程”。
探索引擎的内部机制:LLM与树搜索如何开辟新领域
让我们揭开“引擎盖”,看看这一系统的实际运作方式。LLM与树搜索算法的协作,就像一场精心编排的舞蹈。
本方法的示意图与性能表现。a,本方法算法的示意图:将可评分任务及用于解决该任务的研究思路输入LLM,LLM在“沙箱(sandbox,安全测试环境)”中生成用于评估该可评分任务的代码。随后,代码被嵌入树搜索算法中,新节点的选择会平衡“利用”与“探索”,并从LLM中采样(具体方法见“方法”章节)。b,代码生成方法在Kaggle Playground基准测试中的性能表现:结果显示16项任务的公共排行榜百分位平均性能。基于本方法的模型以粗体标注。误差线代表标准差。BDT,梯度提升决策树(boosted decision tree)。c,用于生成解决科学问题的初始研究思路的机制。
整个过程始于一个初始提示词(prompt),其中包含AI启动所需的所有信息:
- 科学问题描述(例如“预测新冠病毒住院人数”);
- 具体评分指标(例如“最小化加权区间分数WIS”);
- 相关数据的访问权限;
- 初始代码(可非常简单,如基础模板)。
该提示词被发送至LLM后,LLM会生成第一个候选解决方案。代码在安全的“沙箱环境”中执行,其性能会被评分——至此,树搜索正式启动。
该算法基于因AlphaGo而闻名的树预测Upper Confidence边界算法(Predictor + Upper Confidence bound for Trees,PUCT) 构建可能性树。树中的每个节点都是一个完整、可运行的软件片段。为决定下一个待扩展的节点,PUCT会为每个候选节点计算一个“价值分数”,该分数同时兼顾节点的已知性能和未来改进潜力。
这一设计可避免系统陷入“局部最优陷阱”:若系统仅对高分代码进行调整(纯“利用”),可能会错过另一种最终性能更优的全新方法;而通过将部分搜索资源分配给探索较少的分支(“探索”),系统能够实现类似人类“概念飞跃”的突破,进而催生真正的创新。
更重要的是,该系统并非盲目搜索——它能结合人类知识进行引导。提示词可通过多种渠道补充“研究思路”:
- 科学论文:系统可利用另一款LLM阅读并总结相关学术论文,将核心思路直接注入提示词;
- 专家建议:人类科学家可提供高层级策略建议,例如“尝试将线性模型与梯度提升机结合”或“重点优化特征工程的鲁棒性”;
- 过往解决方案:最巧妙的是,系统能从自身成功经验中学习——它可提取两个此前发现的高分解决方案,让LLM将二者“重组”,生成融合两者优势的全新混合方案。
这种整合外部知识、生成新型混合方案的能力,正是系统的“超能力”。它模仿了人类科学发现的过程——“站在巨人的肩膀上”——但执行规模和速度远超人类能力极限。
技术深度解析:引导式进化与思路重组的艺术
对于希望深入了解机制的读者,我们将聚焦两个关键技术细节:搜索算法与“思路重组”过程。
PUCT搜索算法
树搜索的核心并非简单选择分数最高的节点,而是通过PUCT公式计算并选择下一个待扩展的节点u*
:
u* = argmax(u) [RankScore(u) + C * P(u) * sqrt(N_total) / (1 + V(u))]
我们将在不陷入复杂数学的前提下拆解这一公式:
1. RankScore(u):这是“利用”项,代表该代码解决方案迄今为止的表现优劣——分数越高,表明这是一条已知的优质路径。
2. C * P(u) * sqrt(N_total) / (1 + V(u)):这是“探索”项,各参数含义如下:
-
P(u)
:先验概率(系统初始时认为所有路径的可能性均等); -
V(u)
:该节点的访问次数——若某节点被访问多次,此项数值会变小,系统选择该节点的概率也会降低; -
N_total
:总模拟次数——随着搜索推进,此项会促使系统去探索访问较少的节点; -
C
:控制“利用”与“探索”权衡关系的常数——C值越大,系统越倾向于探索。
这一简洁的公式让系统能够动态调整策略:既聚焦有潜力的路径,又不放弃对新颖思路的尝试。它为管理庞大的搜索空间提供了一套严谨的方法论。
程序化思路重组
这或许是最令人兴奋的技术细节。假设系统已完成两次独立搜索,为单细胞RNA测序(scRNA-seq)的批次整合任务找到了两个性能优异但思路迥异的解决方案:一个基于ComBat
方法,另一个基于BBKNN
方法。人类科学家可能需要数周时间研究两者,才能想出融合方案——而AI系统可实现这一过程的自动化。具体步骤如下:
1. 提取最优代码:系统从ComBat
搜索树和BBKNN
搜索树中,分别提取最终的最高分代码。
2. 基于LLM的分析:系统将两个代码解决方案输入LLM(如论文实验中使用的Gemini 2.5 Flash),并附带特定提示词:
“对比这两个代码解决方案……解释两者在核心原理上的差异。”
3. 生成混合提示词:LLM对差异的解释会被程序化地嵌入一个新的提示词中,用于启动新的树搜索。该新提示词会明确指示系统:
“请设计一种算法,融合两种策略的优势部分,构建一种出色的混合策略,使其性能分数高于两种单独策略中的任意一种。”
4. 启动新搜索:以“重组思路”为起点的全新树搜索正式启动,此时LLM的核心目标是生成能智能融合两种“父思路”的代码。
这种自动化的“分析→合成→实现”过程,是强大的创新引擎。正如我们将在下文看到的,这些AI生成的混合方案往往能超越两种“父方案”的性能。
从理论到实践:跨科学领域的“超人类”成果
该系统实力最有力的证明,在于其在真实科学基准测试中的表现。谷歌团队在六个极具多样性和挑战性的领域对其进行了测试,结果令人震惊。
案例研究1:重塑单细胞分析领域的生物信息学
挑战:单细胞RNA测序(scRNA-seq)让我们能够研究单个细胞,但来自不同实验室或实验的数据集(称为“批次”)存在技术差异,会掩盖真实的生物信号。“批次整合(batch integration)”是消除这类技术噪声的关键任务,同时也是一大难题——目前已有近300种相关工具,该领域竞争异常激烈。
结果:研究团队在OpenProblems基准测试(该任务的公共排行榜)中对AI系统进行了测试:
- 系统开发出40种全新方法,全部超越排行榜上已有的所有方法;
- 其表现最佳的解决方案是对BBKNN(一种常用批次整合方法)的改进版本,相比已发表的最优方法,**整体性能提升了14%**;
- 突破点:系统并非简单优化BBKNN的实现——如以下图表所示,它发现了一项关键创新:将BBKNN与另一种方法
ComBat
(批次效应校正方法)结合,在“寻找邻居”前先对数据进行校正。这一混合思路由系统自主发现,正是其性能领先的核心原因。
树搜索在scRNA-seq批次整合任务中的性能表现。a,批次整合任务示意图:对不同数据集(青绿色和红色)进行处理,消除数据中的批次效应,同时保留生物变异性。b,树搜索方法(方法名称以粗体标注,后缀为“(TS)”)与已发表的同类方法在OpenProblems基准测试v2.0.0中的性能对比。“按细胞类型添加抖动的完美嵌入(Perfect embedding by celltype with jitter)”是代表最佳可能性能的阳性对照方法,“按批次随机整合(Shuffle integration by batch)”是不进行任何批次整合的阴性对照方法。“整体分数(Overall score)”是所有数据集和指标的平均值。“数据集(Datasets)”列中的每一项均为该数据集所有指标的平均值。“指标(Metrics)”列中的每一项均为该指标在所有数据集上的平均值。若指标无法计算或性能低于最低阴性对照,则赋值为0,显示为空。c,表现最佳的批次平衡k近邻(BBKNN)实现版本的性能提升与代码创新标注:在第429次实现尝试中引入了基于ComBat的嵌入生成方法。d,OpenProblems基准测试v2.0.0中,非对照方法、有无思路重组的本方法、Gemini深度研究(Gemini Deep Research)方法以及带AI协科学家(AI co-scientist)的本方法的整体分数。Y轴下限为阴性对照方法“按批次随机整合”的整体分数。未显示7种重组方法、5种基础方法和2种未达此性能的AI协科学家方法。*表示该方法为重组方法(即使未明确提示重组)。TS,树搜索(tree search);fastMNN、mnnCorrect,均为batchelor工具包中的批次整合方法。
这一结果意味着什么?它表明,人工智能现在可以进入一个复杂、成熟的生物信息学领域,并在几小时内发明出优于人类数年研究成果的全新解决方案。
案例研究2:用更智能的新冠模型“超越疫情预测极限”
挑战:预测新冠病毒住院人数是一项关键的公共卫生任务。美国疾病控制与预防中心(CDC)协调管理的“新冠预测中心(COVID-19 Forecast Hub)”汇总了数十个专家团队的模型,其中“新冠中心集成模型(CovidHub Ensemble)”(融合最优模型的结果)是准确性的黄金标准——要超越这一模型难度极大。
结果:谷歌团队对2024-2025赛季进行了回顾性研究:
- AI系统生成了14种不同的预测策略,全部超越官方的“新冠中心集成模型”;
- 其最终的“谷歌回顾性模型(Google Retrospective)”平均WIS得分为26,显著优于集成模型的29(分数越低越好);
- 协同混合优势:系统发现,性能最佳的模型均为“混合模型”——它持续将简单稳定的“气候学基础模型”与复杂且响应迅速的“自回归模型”融合,生成了兼具鲁棒性和高适应性(能快速应对最新趋势)的全新模型——这一复杂策略完全由AI自主发现。
树搜索在新冠病毒预测任务中的性能表现。a,预测实验中使用的滚动验证窗口:每次搜索的输出结果在之前的时间段(蓝色)进行内部验证,生成的模型随后用于其对应预测周期(橙色)的预测。训练数据包括2020年8月8日及之后、验证集之前的所有日期。b,时间序列排行榜:显示各参与团队和“谷歌回顾性模型”的每周预测性能(平均WIS),按平均WIS排序。分数为所有52个辖区和4个预测时间范围的汇总结果。每个单元格内的数字为该模型当周的绝对平均WIS。单元格背景色直观显示相对于“新冠中心集成模型(CovidHub-ensemble)”的性能:蓝色表示WIS更低(性能更好),红色表示WIS更高(性能更差)。c,本模型与“新冠中心集成模型”在辖区层面的预测误差(平均WIS)直接对比:表明本模型在大多数地区的性能更优。d,本模型在2024/25新冠赛季全周期内预测误差(平均WIS)的地理分布:误差值越低(颜色越浅),性能越好。e,不同建模策略的汇总预测性能对比:包括新冠中心竞赛的基准模型、本研究的回顾性模型、对提交模型的复现结果、通过重组生成的新型混合模型、深度研究模型(Deep Research)和AI协科学家模型。在3周评估周期(3个参考日期×4个时间范围×52个辖区)内,有14种策略(10种重组策略、2种深度研究策略、1种AI协科学家策略和1种复现基准策略)的性能超越官方“新冠中心集成模型”。未显示性能低于“新冠中心基准模型(CovidHub-baseline)”的模型。
这一案例证明,该系统能够在高风险、高竞争的环境中运作,并生成性能优于数十个人类专家团队集体智慧的策略。
案例研究3:从斑马鱼大脑到复杂积分运算
研究团队还在其他多个领域测试了系统的通用性:
- 地理空间分析:在DLRSD基准测试(用于卫星图像分割)中,AI生成的解决方案平均交并比(mean Intersection over Union,mIoU)得分超过0.80,显著优于此前的学术领域最优结果;
- 神经科学:在ZAPBench基准测试(用于预测幼体斑马鱼全脑神经活动)中,系统生成的模型性能超越所有其他基准模型(包括复杂的视频基模型),且训练速度快了数个数量级——在单块GPU上训练仅需不到2小时,而对比模型在16块A100 GPU上训练需36小时;
- 数值分析:最令人惊讶的是,团队还让系统解决了一个纯数学问题:求解标准且高度权威的
scipy.integrate.quad()
函数无法处理的复杂积分。系统从调用quad()
的简单代码开始,逐步优化,最终生成了一个复杂的全新程序——在19个“无法求解”的预留积分问题中,该程序正确求解了17个,相当于为这类特殊场景提供了一个可直接替代标准库函数的解决方案。
各模型在DLRSD基准测试中的性能对比表:表格显示了树搜索解决方案和参考论文中方法的发表年份、架构、关键特征及报告的平均交并比(mIoU)。
在所有领域中,结果都指向同一个结论:自动化系统能够系统性地探索可能的程序空间,并找到性能等同于甚至优于人类多年专注研究成果的解决方案。
未来属于“可评分”:我们正处于科学革命的临界点吗?
这项研究的潜在影响怎么强调都不为过——我们正在见证一个“计算发现过程被根本性加速”的未来。
反复试验是科学进步的核心……该系统能以极快的速度生成专家级解决方案,将一组思路的探索时间从数周或数月缩短至数小时或数天。以这种方式加速研究,将对科学发展产生深远影响。
这项技术为科学研究增添了一件全新的“利器”:对于任何可通过“评分”衡量进步的领域,都可部署该系统。试想这样一个未来:
- 材料科学家为新型电池电解质的“效率与稳定性”定义“质量分数”,AI系统探索化学和模拟空间,提出全新候选材料;
- 气候科学家让AI优化全球气候模型中“云形成参数化”(一项众所周知的“可评分任务”);
- 制药公司利用类似系统优化临床试验设计,探索能最大化患者疗效和统计效力的方案。
当然,该系统并非万能药。其主要局限在于,它需要以“可评分任务”为前提——而许多科学研究具有探索性,无法简化为单一数值。此外,对“解决方案背后原理”的解释仍需人类洞察力:系统能发现性能卓越的新型方法组合,但理解其成功的深层理论原因,仍是人类的任务。
但对于日益庞大的“计算型科学领域”而言,这无疑是一个分水岭。我们正从“科学家使用软件作为工具”的时代,迈向“科学家与软件作为创新伙伴协作”的时代。
谷歌的这篇论文不仅展示了一款强大的新型人工智能,更让我们得以窥见未来:人类直觉的瓶颈被打破,科学发现的速度仅受限于“提出正确问题”和“定义正确评分标准”的能力。
科学革命由新工具驱动——望远镜、显微镜莫不如此。而这款人工智能探索引擎,或许将成为21世纪最具决定性的科学工具。
核心要点
- 新范式:科学软件开发可被定义为一个搜索问题,借助人工智能实现自动化,从而加速科学发现。
- LLM + 树搜索:系统核心是“创意LLM代码生成器”与“策略树搜索算法”的强大组合,后者负责引导对可能解决方案的探索。
- 知识整合:系统的真正优势在于其整合外部知识的能力——可融入论文、专家建议及自身过往发现(思路重组)中的研究思路。
- 超人类性能:在生物信息学、流行病学等多样且竞争激烈的科学领域,该系统已展现出超越专家水平的领域最优性能。
- 加速科学:通过自动化实证软件的人工创建过程,这一方法有望从根本上提升科学进步的速度。
参考文献
Aygün, E., Belyaeva, A., Comanici, G., et al. (2025). An AI system to help scientists write expert-level empirical software. arXiv:2509.06503v1
本文转载自AIGC深一度
