2030年AI发展预测:计算扩展与科学研发影响 精华

发布于 2025-10-11 06:40
浏览
0收藏

核心论点:算力是驱动AI进步的根本引擎,其指数级扩张将持续至2030年

报告的基石论点是:AI能力的飞跃式发展,其最核心、最根本的驱动力是计算规模(Scaling)的持续扩张。算法和数据的创新固然重要,但它们更多是服务于、并得益于更大规模的计算。通过推断当前算力及相关要素的指数级增长趋势,我们可以相当可靠地预测2030年AI的技术形态和能力边界。

一、 趋势预测:通往2030年的“扩张之路”及其资源需求

基于当前趋势推断,AI的发展将遵循一条由巨大资源投入铺就的指数级扩张路径:

  • 算力:

训练算力:自2010年以来,顶级AI模型的训练算力以每年4-5倍的速度增长。预计到2030年,最庞大模型的训练算力将是今天的1000倍。

推理算力:推理(Inference)算力的扩展同等重要,它与训练算力将协同增长,共同推动AI能力的提升,二者在资源分配上将大致相当。

  • 投资:

支撑上述算力规模,单个顶级模型的专用硬件集群投资将高达数百亿美元。

这一级别的投资是合理的,其前提是AI能创造数万亿美元的经济价值——这与当前AI头部公司收入每年增长3倍的趋势相符。

  • 数据:

高质量的人类生成文本数据将在2027年前后趋于枯竭,但这并非发展的“死胡同”。

合成数据(Synthetic Data)与多模态数据(图像、视频、音频)将成为数据供给的主力,足以支撑算力继续按趋势扩张。

  • 硬件:

AI芯片的总算力部署将持续增长,集群规模的扩大是算力增长的最主要来源。

为了缓解单一地点的能源压力,超大规模的训练任务将越来越多地分布在多个数据中心进行。

  • 能源:

顶级AI训练任务的电力需求将达到吉瓦(GW)级别,接近一座大城市的平均功耗。

到2030年,AI数据中心总耗电量预计将占全球总需求的1.2%左右。其碳排放量(占全球0.03% - 0.3%)则高度依赖于所使用的能源结构(如可再生能源比例)。

二、 能力落地:AI在2030年将如何重塑科学研发(R&D)

报告以科学研发为锚点,具象化地预测了AI的能力边界。AI将同时以“专用工具”和“通用助手/代理”两种形态,深刻变革科研范式:

  • 软件工程:

自动化程度最高的领域。AI代理将能自主完成大部分日常编程任务,如修复Bug、实现新功能、解决定义清晰的科学计算问题。基于现有基准(如SWE-bench)的进展,这一能力有望在2026-2027年实现。

  • 数学:

AI将成为数学家的强大研究助手,能够形式化证明草稿、验证猜想、处理技术性工作。挑战性的数学基准(如FrontierMath)有望在2027年左右被攻克。

  • 分子生物学:

专用工具(如AlphaFold的后继者)将持续突破,在蛋白质、RNA等分子结构与相互作用的预测上取得更大成就。

通用助手将加速文献研究、实验设计等“桌面工作”。

物理瓶颈:尽管前端研究大大加速,但由于湿实验室实验、临床试验和监管审批的漫长周期,AI对2030年上市新药的直接贡献有限。

  • 天气预测:

AI模型已在多项指标上超越传统数值方法,未来将通过整合更多数据源,进一步提升对日常天气及飓风等极端事件的预测精度和校准度。

最终图景:一个与AI深度共存的世界

报告描绘的2030年,是一个AI技术如同今日互联网一样无处不在、深度融入经济与社会的世界。届时,高度智能的AI系统不仅是强大的生产力工具,更可能成为能够自主执行复杂任务的“虚拟工作者”。我们当前就必须为迎接这个由算力驱动、被智能重塑的未来做好准备。

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

这份Epoch AI报告由Google DeepMind委托撰写。所有观点和结论均为作者观点,并不一定反映Google DeepMind的立场或认可。 

执行摘要

先进AI将如何开发,并在更广泛的世界中产生何种影响?如果当前AI开发的扩展趋势持续到2030年,会发生什么?本报告考察了这种扩展在计算、投资、数据、硬件和能源方面的含义。我们探讨了计算在推理和训练中的作用,为证明此类投资合理性所需的潜在经济价值,以及数据可用性和能源方面的潜在挑战。

基于对AI开发方式的这些预测,我们转向预测未来的AI能力及其在科学研发中的影响。AI应用于科学是多家领先AI开发者的明确目标,并且很可能成为AI部署的首要优先事项之一。科学研发为理解先进AI将实现什么提供了宝贵视角。

计算扩展在AI开发中发挥了关键作用,并且很可能继续如此。训练和推理的计算驱动AI能力的改进,AI研究中的许多进展来自于开发通用方法来支持更多计算的使用。

AI开发的轨迹可以基于持续的计算扩展进行预测。这种扩展对AI开发的许多领域具有重大影响,包括训练和推理计算、投资、数据、硬件以及能源。当我们预测计算扩展将继续时,就可以考察每个领域的后果,以及它们需要如何相应扩展以支持计算扩展趋势的持续。

指数增长很可能在所有关键趋势中持续到2030年。在训练和推理计算、投资、数据、硬件以及能源方面,我们认为现有趋势的延续是可行的。我们详细探讨每个因素,展示增长如何持续到2030年,并讨论在此之前放缓或加速的最可信原因。我们认为偏离趋势的最可信原因是AI开发的社交协调变化,例如投资者情绪或严格监管,AI集群的供应瓶颈,例如芯片或能源,或者AI生产的范式转变,例如实质性的研发自动化。

根据当前趋势,2030年的最大AI模型将需要数百亿美元的投资,以及当今最大模型计算量的1000倍。这种规模的投资如果AI能够自动化经济中的重要任务,则可能合理。现有的AI实验室收入每年增长3倍的趋势将在2030年前导致收入超过数千亿美元。为此类训练运行找到数据可能具有挑战性,但通过合成数据和多模态数据,这应该是可克服的。这种规模的训练运行将需要吉瓦级的电力,接近整个大城市的平均需求。

持续扩展将导致能力持续进步。一旦任务开始随着扩展显示实质性进展,性能往往会随着进一步扩展可预测地改善。现有的AI基准,尽管有其局限性,但涵盖了许多如果在现实世界中自动化将真正有用的能力。因此,现有的基准可以为我们对AI未来能力的预测提供信息。这将是一个不完美的观点,受现有基准的代表性塑造,并限于我们已经能够测量进展的领域。我们在插曲:从规模到能力中进一步讨论这些挑战。尽管如此,这为AI将能够做什么提供了引人注目的基线预测。

至少,AI将作为科学研发的有价值工具。AI系统已经擅长帮助用户找到相关信息,实现代码,并基于大量领域特定数据执行明确定义的预测任务。所有这些能力都将持续改进。

例如,AI将能够从自然语言实现复杂科学软件,帮助数学家形式化证明草图,并回答关于生物协议的开放式问题。所有这些例子都取自现有显示进展的AI基准,简单推断表明它们将在2030年被解决。而且,用于领域特定应用的AI工具将持续改进。例如,AI工具已经在生物分子结构/相互作用和天气预报方面提供最先进的预测,并且在两个领域,进展都将持续。

先进AI很可能导致桌面研究蓬勃发展,这很可能受益于上述所有进展。在2030年,将有更多软件、更多数学结果、更多早期阶段分子生物学研究、更多领域如天气预测的方法论进展。诸如软件和数学等领域有较少的实验瓶颈,并且特别可能从AI进展中受益。

对于实验领域,部署时间表取决于难以预测的社会技术选择。根据当前的药物批准流水线,到2030年通过临床试验批准的药物已经处于今天的研发流水线中。AI可能在2030年前对药物开发流水线做出贡献,但在前述监管框架内,AI的贡献不太可能导致批准的产品进入市场。

结果是一个拥有日益丰富的AI中介数字服务、知识和分析的世界。到2030年,科学研发中任何物理方面很可能比任何数字方面进展得少。然而,如果这些预测实现,将有相应的强烈激励,以及额外资源,来加速通过这些瓶颈。这些努力也可能受益于AI,但超出本报告范围。

引言

计算扩展是AI进展的关键。使用更多计算进行训练和推理从根本上是使AI能力进步的原因。其他关键因素如算法创新和数据,主要在支持计算扩展方面重要。我们将在后面更彻底地论证这一点,但现在,考虑如果这是真的,其含义。

计算扩展能预测什么?

假设计算扩展驱动AI进展,我们可以通过推断最近计算扩展趋势,以及必要输入如投资、数据、电力等,来预测AI开发的近期未来。我们认为预测这些事物的基线应该是趋势推断:考察它们最近如何增长,调查原因,并假设最近增长将持续,除非有明显原因阻止。这是一种常见的预测基线方法(Armstrong 2001),并已在AI预测的几个领域应用(Amodei and Hernandez 2018; Sevilla et al. 2024)。

只要投资持续增长,计算就可以在其当前指数趋势上持续扩展到2030年。然后,因为AI进展从扩展中相当可预测,我们可以预测AI能力。预测需要现有进展的相关基准。幸运的是,许多相关基准已经在经济价值领域、科学研发等领域提供证据。而且这些能力改进的预测表明计算投资很可能持续增长,因为此类AI能力将具有巨大经济价值。

这使我们能够预测AI开发的输入。在一个“我们只是继续扩展”的世界中,2030年的计算使用量是多少?实现该计算的AI集群需要多少投资?供应它们需要多少电力?计算得到有效使用需要多少数据?这也使我们能够预测AI至少可能执行的任务。2030年的AI将具有何种能力?

为什么是计算而不是算法或数据?

对扩展焦点视图的AI进展有两个常见异议:算法创新和数据。我们认为虽然它们使画面复杂化,但仍与之兼容。

算法创新发挥重要作用,但它们与计算扩展密切配对。改述Bitter Lesson,最重要和有效的算法创新是支持计算扩展的通用方法。而且,有一些证据表明算法创新依赖于计算扩展进行开发。这表明我们应该预期算法进展,但由计算扩展支持,并聚焦于它。尽管如此,这是关键不确定性。如果计算不是瓶颈,能力可能比这里预测的改进更快。

数据对AI训练至关重要,数据集质量可以显著影响结果。然而,有两个原因认为计算是更限速的输入。首先,至少对于通用LLM,计算在当前AI训练范式中更多是瓶颈。我们可以使用现有公共文本数据和其他模态至少再扩展几年(数据)。其次,似乎越来越可能推理扩展将使训练更计算密集,有效使用计算生成推理训练的数据(数据不会在2030年前耗尽,虽然人类生成文本可能)。特定数据瓶颈在特定应用中可能重要,我们在科学研发的能力中进一步讨论。因此,我们在调查扩展时必须考虑数据可用性,但这仍与扩展焦点视图兼容。

计算扩展不能预测什么?

这不允许预测何时我们有通用智能,即能够以熟练人类水平执行任何认知任务的AI。这个问题遭受两个巨大不确定性:AI基准及其理解的差距,以及当前AI能力中可能在未来五年未填补的差距。

当前基准可能无法充分代表人类执行的最难AI任务。而且并非所有基准显示AI进展:有一些任务AI尚未显示与扩展的改进,例如“自主证明一个新实质数学定理”。从根本上不确定AI在解决现有基准(显示进展)时已达到专家水平性能。解决所有现有基准何时发生也从根本上不确定,因为它仅在其中一些上显示进展。尽管如此,相当确定AI将在2030年解决许多挑战基准,这些对AI将能够执行的有用任务有明确含义。

同时,当今通用AI系统的能力差距为AI到2030年可能无法实现的能力提供一些启示。AI模型擅长从大型训练语料库识别相关信息,但经常偏向不合逻辑的幻觉。它们擅长摄取大量数据并识别底层模式,却未能可靠应用人类似乎自然的推理步骤。可靠性和鲁棒性是更广泛的问题,虽然它们至少显示了与扩展的增量改进。AI擅长解决封闭优化问题如游戏,却难以在现实世界中以代理执行后果性行动。它可以比人类更快执行长内容浅层处理,但难以使用此长上下文信息解决挑战问题。这些限制足够多,以至于甚至难以确定它们哪些是重叠的,或许长上下文理解与推理鲁棒性相关,或许它们是完全分开的问题。这些限制与设计和解释AI基准的挑战相关:充分基准化这些限制也是一个开放问题。

不确定这些AI限制中哪些将在2030年改进,以及改进多少。不确定这些是否通过简单扩展现有系统并小修改来改进,但也不清楚需要多少计算。考虑推理模型的例子:预存系统已经使用推理扩展,但强化学习(RL)使这远更有效,在几个基准中产生突破结果。这是否挑战扩展是进展驱动力的观点?支持扩展驱动进展的论点,许多研究者提前预测更好的推理扩展将是必要的,这在模型足够扩展以使推理RL工作后到来。而且,训练扩展适用于RL,使用更多RL训练计算改进推理模型实现的能力。另一方面,这强调从现有结果预测的挑战。今天AI挣扎的领域有时可以看到突破算法进展,这本质上难以预测。

即使在扩展优先视图中,不清楚需要多少更多扩展来达到AGI。也不清楚这是否需要重大算法进展。不确定此类算法进展,如果需要,是否可能仍在2030年前发生。这些是对AI扩展焦点预测的最大挑战,特别是试图预测超出已有基准持续进展时。

尽管这些重大挑战,扩展焦点预测仍有用。我们可以预测最小基线:我们预期AI将随着进一步扩展持续改进的任务。然后我们可以考察结果能力如何影响真实工作任务。我们可以反思现有基线未覆盖的进一步任务,以及如果AI变得能够这些,对自动化的含义。然后,最终,我们可以跟进推理这在人们工作中更广泛的含义。这使我们桥接AI的两种竞争视图:AI作为强大工具,以及AI作为虚拟工作者。

扩展对AI开发预测什么?

我们考察几个关键输入:计算、投资、数据、硬件,以及能源和环境。这些中任何都能破坏持续进展,例如,如果计算扩展停止有效怎么办?如果我们耗尽数据怎么办?这些论点中一些比其他更强,但我们看不到单个引人注目的论点阻止当前进展持续到2030年。我们在每个关键输入中探讨这的含义:调查它们可能扩展多远,以及它们如何可能脱轨。

简而言之,我们预测,根据当前趋势,2030年的领先AI模型将使用当今领先模型计算量的1000倍进行训练。此类模型的集群将需要两千亿美元的投资,接近当今美国GDP的1%。训练和部署将需要吉瓦级的电力用于最大模型,总AI数据中心电力可能轻松增长到全球电力需求的2%,类似于电动汽车的需求水平(到2030年约2%(IEA 2025d))或互联网(2025年2-3%(Rozite et al. 2023))。

AI开发趋势的关键发现

计算:训练计算自2010年以来每年增加4-5倍,并且很可能以类似速度持续增长。到2030年,根据当前趋势,最大AI模型很可能使用当今领先模型计算量的1000倍进行训练。扩展推理计算将是AI改进的另一个重要来源。这不太可能干扰训练计算的扩展,对于给定模型,其生命周期推理计算可能与其训练计算相当。

投资:为支持此规模训练,必要AI硬件将根据当前趋势成本数百亿美元。开发单个模型的摊销成本将是数十亿美元。这些预测与当前AI投资和估值一致,以及AI集群开发者的资本支出计划。前沿AI实验室已经从聊天机器人赚取数十亿美元,收入在过去几年每年增长3倍。如果AI能够显著提高经济整体净生产力,它将价值万亿美元。这将证明其开发的实质投资。我们稍后讨论AI如何实现此类净生产力收益,这取决于实现的能力,以及成本有效部署它们。

数据:通用AI训练的数据集最近每年增长2.7倍,但进一步数据集增长可能显著变化。随着高质量人类生成文本数据变得稀缺,可能需要转向多模态和合成数据。最近推理训练的趋势表明,以远慢速度增长人类提供数据,然而可以通过合成数据用于推理训练支持计算扩展持续。如果AI能力持续改进,那么特定专家数据来源将变得越来越有价值:本质上,用于高价值问题训练的数据。

硬件:领先AI芯片的总安装容量很可能持续每年增长2.3倍,由生产更多芯片并改进性能驱动。根据当前趋势,大型AI集群已经在为最大AI开发者规划和开发。然而,大型AI工作负载很可能越来越分布在多个数据中心,以缓解电力需求。

能源和环境:前沿AI(训练和推理)的电力需求很可能每年增长约2.1倍,AI能源需求总体上轨道为每年增长约1.6倍。在这种情况下,AI数据中心将增长到全球电力需求的1.2%。取决于供电数据中心的能源组合,AI电力使用可能占2030年全球排放的0.03-0.3%。虽然显著,但这远小于商业航班的预计排放(2.5%,(IEA 2025a))。有证明的潜力AI在能源生产、工业过程优化和运输等领域减少排放,但这高度取决于部署和优先级的社会决策。

扩展对AI能力和影响预测什么?

2030年的AI系统将实现何种能力,并在世界中产生何种影响?这是一个难以置信的广泛问题,为使其可处理,我们缩小范围到一个关键领域:科学研发的自动化。AI用于科学研发是多家领先AI开发者的明确目标(Altman 2023; Amodei 2024; Google DeepMind, n.d.),并且由于其提高更广泛生产力的能力,在经济中占据重要位置。我们在几个不同领域探讨AI对科学研发的潜力:软件工程、数学、分子生物学和天气预测。

如前所述,我们的预测锚定于推断当今AI能力的趋势。这种方法可能过于激进有两个主要原因。首先,如果基准不代表它们旨在测量的能力。我们在科学研发的能力的每个部分进一步考察这。在几个领域,如软件工程和生物学,已经有一些经验证据表明基准进展与真实世界进展相关。其次,基准进展可能由于过拟合而欺骗性。虽然这是比较同时点模型的真实挑战,但我们相信对于跨未来几年广泛预测进展,这较少担忧。过去的基准也受过拟合影响,但尽管如此,解决它们与相关AI能力进展手拉手。如果当前基准由于过拟合夸大进展,那么我们的推断将是激进的,但只要有一些真实底层进展,它们仍将信息丰富。

能力趋势表明科学研发的AI将有巨大进展,特别是在软件工程和数学等领域,其中现实任务可以完全在硅中训练。为提供具体例子:到2030年,现有的基准进展表明AI将能够从自然语言实现复杂科学软件,帮助数学家形式化证明草图,并回答关于生物协议的复杂问题。我们在下面进一步描述这。

2030年AI能力的关键发现

软件工程:今天的许多日常任务很可能被AI代理自动化。基于明确软件问题的现有基准,如SWE-bench,在轨道上于2026年被解决。解决定义的几小时长科学编码和研究工程问题(RE-Bench)的当前进展较慢,但在其当前轨迹上将于2027年被解决。关键不确定性是人类监督是否将是更开放问题瓶颈。

数学:挑战数学推理基准,如FrontierMath,可能早在2027年根据当前趋势被解决。数学家预测能够解决此类基准的AI可能通过开发草图论点、识别相关知识和形式化证明来帮助他们。这将使AI在数学中履行类似于当今软件工程中编码助手的角色。甚至比软件工程更多,关键不确定性是现有数学基准是否有效预测此类能力。今天最挑战数学基准比软件基准离软件工程师日常工作更远。不清楚何时AI能上升到自主证明实质结果的水平,但这在2030年前发生是合理的。

分子生物学:蛋白质-配体相互作用的公共基准,如PoseBusters,在轨道上在未来几年被解决,虽然对于任意蛋白质-蛋白质相互作用的高特异性预测时间线更长(且不确定),特别是远离训练数据。同时,AI桌面研究助手将在未来几年帮助生物研发。开放式生物问题回答基准在轨道上到2030年被解决,虽然有大不确定性。重要的是,基础生物研发的进展很可能需要几年导致下游变化,例如制药开发,由于湿实验室实验和临床试验的瓶颈。

天气预测:AI天气预测已经可以在从小时到周的时间尺度上改进传统方法。而且,AI方法运行成本有效,并且很可能随着额外数据进一步改进。下一个大方法论挑战在于改进当前视野的预测校准,而不是进一步扩展它们。特别在两个领域有突出改进:预测稀有事件,以及整合额外数据来源。使用更多历史数据和更细粒度历史数据进行训练可以改进预测,在部署中整合更多实时传感器输入可以实现更好性能。有重要的开发和部署挑战:资助研究,获取数据(特别是在部署中低延迟),以及在某些情况下甚至安装数据记录设备的许可。尽管如此,改进天气预测方法可以在更广泛世界中实现显著益处,帮助电力基础设施、农业、运输、紧急响应和日常规划等领域。

考虑到通用AI助手的展望,有清晰愿景AI自动化研究者现有工作中的任务。我们在“关于科学研发AI助手的声明”中进一步描述。同时,对于分子生物学和天气预测等领域,前进路径较少清晰:迄今许多进展来自更窄AI工具,许多人类劳动(或部署)可能被与物理世界的交互瓶颈。对于此类学科,似乎桌面研究将受益于AI蓬勃发展,但实验和更广泛影响落后。例如,可能有药物开发的有前景候选分子的数量和质量增加,但由于临床试验和药物批准的多年前时间线,今天的AI研究不太可能相关到2030年发布的药物。

关于2030年科学研发AI助手的声明

从最确定到最不确定

  1. 至少,科学研发将获得类似于当今软件工程师编码助手的AI助手。这几乎确定,正如我们稍后考察,有现有基准显示相关能力的AI进展,以及现有AI系统用于文献综述、蛋白设计等。这些功能与软件工程相比有差异,例如更多焦点于审查和综合大型异质文献,而现有AI编码工具主要限于单个项目上下文。尽管如此,有重要相似性:根据上下文提供建议、找到相关信息、完全完成更小封闭任务。
  2. 至少,AI助手很可能将日常生产力提高10-20%,至少在非实验工作任务中。虽然较少确定,但这是从软件工程师生产力的随机试验开始点(见软件工程讨论当前证据,包括负面结果)。即使数学家或理论生物学家的工作任务比软件工程师较少适合自动化,我们已经有相关基准改进的证据,并预期许多年进展仍将到来。
  3. 效果可能大于此。10-20%数字是为软件工程师使用Copilot从2023年末开始测量的(Cui et al. 2025)。自那时AI系统已实质改进,早证据记录自主软件工程代理的改进能力。

到2030年AI将至少与互联网一样重要

简而言之,我们描述一个进一步扩展AI导致进一步能力的世界,与我们迄今看到的相符。此类能力可以自动化经济中的有意义任务,其中科学研发是其一。科学研发是高度有价值且快速演进的工作,AI将相当快速被采用,但相同AI进展将在许多部门无价。部署需要时间,并且必须首先面对许多瓶颈。然而,如果当前趋势持续到2030年,一个彻底转变的世界至少将在视线内。预测整个发电厂输出可能专用于AI可能似乎极端,但这将在这样一个世界中合理,在那里AI变得与互联网相当重要。

不可避免,这些声明必须以重大不确定性为附带条件。或许AI能力将在当前水平附近停滞,因为今天的算法不够通用。我们在绘制未来AI能力轨迹中讨论这;我们认为简单从现有AI基准进展预测产生这些预测作为相当保守基线。或许部署将缓慢,特别是在挑战研发任务中,或在更广泛经济其他关键部分。在科学研发的能力中,我们认为虽然部署具有挑战,AI技术已看到历史上最快采用曲线。当前采用趋势与到2030年达到数千亿美元收入一致。另一个常见异议是大众采用将被计算缺乏瓶颈。在插曲:从规模到能力中,我们显示当前安装计算趋势反对这。

这些是与当前趋势一致的预测,特别是当涉及AI开发的未来五年时。这些预测可能有实质不确定性,但我们认为它们应该是基线预测。默认情况下,2030年的世界将充满大规模部署的高度能力AI系统,既作为科学工具,例如天气预测系统和蛋白结构建模,也至少在某种程度上作为追求实质现实世界目标的自主代理,例如在软件工程中。我们现在必须为那个世界准备。

扩展和能力

我们的预测有两个关键部分,对应两个主要章节:扩展和能力。

扩展可以说是AI进展的最根本贡献。使用更多数据训练AI系统已导致更强能力。这不是忽略算法进展的作用,几代研究者和工程师已花费整个职业开发创新来改进AI开发。然而,AI开发的历史表明这些创新与扩展并行,要么支持扩展,要么使它更高效。我们在下面讨论计算扩展如何改进性能,既在训练中也在推理中。我们也讨论计算扩展如何似乎很可能在未来五年持续。

从扩展结果的能力对AI如何在世界中使用至关重要。我们讨论如果扩展是AI开发的限速因素,那么我们可以使用扩展预测来绘制AI能力轨迹。这使我们能够预测2030年AI可能在世界中做什么:我们考察现有进展趋势,并向前推断。

扩展计算改进性能

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

GPQA,一个多选PhD水平科学问题基准。类似性能与计算改进的模式已在许多AI基准中看到(Denain 2024)。

扩展计算的原因直截了当:它改进性能。这适用于训练计算和推理计算。从规模预测性能并不总是直截了当,特别是难以预期何时一个全新能力将出现。然而,一旦有AI实现某种能力的初始迹象,后续扩展在大多数情况下可预测地改进性能(Owen 2024a; Schaeffer et al. 2023)。

计算扩展已在训练计算中研究最广泛。扩展最可预测当除计算外的变量保持恒定时,例如当前沿实验室简单“扩展”给定架构和训练配方时。然而,即使考虑许多不同AI模型遵循不同架构、训练方法和数据混合,基准性能与计算相当相关。

推理计算扩展,同时,已最近看到重大进展。以前推理计算扩展的方法往往低效。新推理LLM支持远更成本有效的扩展推理计算。 

扩展没有“撞墙”,虽然它变得更难

最近有一个反对扩展的论点,已看到大量公共讨论:扩展正在产生“递减回报”,或“撞墙”。这可能有几个含义,区分它们重要。

“撞墙”的最激进版本:规模定律,将下一Token预测性能与训练计算相关,可能崩溃。没有公共证据表明这是真的。它可能发生,但我们没有特别理由预期它。

“撞墙”的较不激进版本:下一Token预测的规模定律可能保持有效,但下游任务改进比基于计算扩展或研究者直觉的预期差。记者已做出此类声明,归因于领先AI实验室的研究者。从公共信息,超出GPT-4规模的已知第一个模型如GPT-4.5和Grok-3的基准性能似乎大致与计算扩展趋势一致。

然后,有“撞墙”的更松散版本:规模定律保持准确,性能改进如预期,但进一步扩展比以前更难,例如因为所需投资、数据、电力约束、芯片生产和延迟。这引人注目。当代AI训练数据中心正在达到数十万GPU。这接近单个数据中心能供电的极限,导致AI开发者运行多数据中心训练(Gemini Team et al. 2023)。高质量公共文本数据可能变得更难来源。我们在各自章节调查这些,并总体发现这些中没有一个会清楚约束训练扩展趋势到2030年前。

最后,有训练扩展“撞墙”的声明,因为推理扩展在推理模型开发后远更有效。推理模型是重大进展,并将改变训练扩展的细节,但我们认为推理计算和训练计算很可能类似扩展。训练扩展导致更能力模型,可以用给定推理预算做更多。

推理扩展相关到一个重要考虑:我们计为训练计算什么。最近前沿模型越来越依赖后训练,据一些报告,后训练计算可能很快扩展到与预训练计算相同水平(Amodei 2025)。即使预训练扩展被数据缺乏挫败,几位著名研究者已预测转向合成数据后训练是AI开发的下一个时代。 

绘制未来AI能力轨迹

过去15年AI开发的惊人结果导致问题:扩展将引领我们何处?未来AI将能够做什么?扩展是否会导致人工通用智能(AGI)或超越,例如能够执行人类执行的几乎任何认知任务的AI(Morris et al. 2024)?

我们对能执行任何认知任务的AI所需训练和推理计算几乎没有确定性。然而,我们可以绘制AI能力轨迹。扩展清楚支持AI评估性能的预测。而且我们已经有AI系统可以在困难评估中实现令人印象深刻的结果。因此,我们可以预测“扩展将产生何种能力”。我们可以预测AI系统在任务如实现复杂软件、执行生物文献搜索等中的能力。这些预测将有噪声,但它们将基于现有进展。这表明我们将能够绘制向先进AI的轨迹,即使它达不到AGI。

这种方法的另一个重要挑战:计算是否将是限速因素?几位领先AI研究者预测先进AI将需要沿途更多算法创新,但这些将比必要计算硬件扩展更快被设计。因此,扩展很可能将是绑定瓶颈。当然,在这点上有分歧,AI研究者对先进AI时间线有广泛信念(Grace et al. 2024)。然而,鉴于最近进展,值得认真对待这种可能性。如果扩展将发挥关键作用,那么“图上直线推断”将是思考先进AI开发的富有成效方式。 

规模

五年后将投入AI开发的资源是什么?推断关键输入,如训练计算,使我们能够推理AI开发将如何进行。它让我们考虑现有进展如何可能持续,以及哪里可能需要重大变化。

我们的起点是考察现有趋势,并审问可能导致它们改变的因素,向前走。像这样的推断是强基线,特别是过更短时间段。例如,训练计算的扩展自2010年深度学习时代开始以来以相对恒定趋势为4倍每年。我们可以合理准确预测2024年的最大训练运行,简单通过2020年的趋势推断(Sevilla and Roldán 2024)。

我们首先考察训练和推理计算的扩展。我们认为只要有足够投资,训练计算趋势很可能持续,虽然训练可能转向焦点于合成数据和/或后训练。训练扩展可能停止的一个原因是如果它提供令人失望的AI能力改进,我们上面论证迄今没有这的证据,并且扩展驱动深度学习在基准进展方面没有“撞墙”。同时,推理计算扩展的最近进展表明改进模型能力的互补方式。以重大不确定性,我们预期AI实验室最终将训练和推理计算扩展到类似水平。

持续AI计算扩展将需要相应投资扩展。我们显示这历史上以2-3倍每年发生,并简要考察AI驱动生产力改进如何证明大规模AI开发投资。硬件制造商的估值暗示市场预期AI每年产生超过万亿美元,并支持至少额外双倍集群规模扩展。更大投资可以由相应更多价值证明,这由最近AI收入增长支持。

然后我们考察训练数据趋势。我们显示通用公共可用文本数据合理可能在2027年前耗尽。尽管如此,AI开发者不太可能耗尽大规模训练的数据。这是由于两个突出来源:合成数据(特别是用于推理训练),和多模态数据。我们也考察高价值专家数据来源的作用,例如可以适应生成有可验证解决方案的合成数据的问题。对于本报告特别兴趣,我们讨论覆盖科学研发高价值领域的数据的重要性,如生物分子结构和相互作用数据。

在扩展驱动的AI开发视图中,硬件至关重要。我们显示训练计算增长的最大因素是扩展集群规模,其次是更长训练运行和改进硬件性能。我们认为集群规模扩展很可能持续,并基于下一代AI集群提供证据。同时,我们提供暂定证据训练持续时间可能高原,因为算法进展和硬件进展阻止它们增长太长,并且最近报告表明前沿模型训练已稳定在约两个月。

最后,我们考察此类扩展对能源和环境的影响。我们显示前沿训练的电力需求每年翻倍,并似乎很可能持续。在基于高端AI芯片功率消耗的推断中,AI将到2030年构成总电力需求的约1.2%。排放将大大变化,取决于支撑其使用的能源组合。如果数据中心专使用低碳强度电力,它可能低至2030年全球年度排放的0.03%。如果数据中心使用类似于电网平均的能源组合,类似于天然气,它可能高至2030年全球年度排放的0.3%。在实践中,排放很可能更接近第二个数字,除非太阳能和其他可再生能源远超当前投影。至关重要,AI对排放的整体效果也将取决于其用途。跨许多应用,AI可以减少全球排放超过它增加的量。这是否在实践中发生取决于难以预测的社会选择。

总体,我们对扩展做一个简单预测:最可能结果是当前趋势大多持续。训练持续如自2010年以来增长,推理随之增长。为支持这,投资必须也增长,达到极端水平。然而,这些投资合理,因为投资者预测AI将提供相应经济价值。因此,行业持续部署更多AI芯片,消耗相应更多电力,类似于经济中其他关键部门。 

计算

计算支撑现代和历史AI进展。特别是,向专用AI硬件和大型训练集群的转变驱动了许多AI能力进展。同时,更最近,专用推理模型已使能高效推理计算扩展。

我们认为训练计算很可能持续每年增加约4-5倍到2030年。这趋势自2010年以来持续。训练更大模型持续改进AI能力。虽然进一步计算扩展在数据、硬件和电力方面具有挑战,所有这些技术挑战似乎到2030年可克服。最大不确定性是投资是否持续增长,我们在投资中进一步讨论。

我们进一步认为增长推理计算需求不太可能抑制训练计算增长。推理成本与模型使用次数成比例增长,而训练计算是对模型能力的预先投资。由于这个原因,以及迄今AI部署的证据,我们预期前沿AI实验室将训练和推理计算扩展约4-5倍每年。 

训练计算已增加4-5倍每年,并且很可能持续

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

自2010年以来著名AI模型的训练计算增长约4-5倍每年,前沿模型类似模式。最近前沿模型已是通用AI模型,大多数训练计算花费在语言训练上。

训练计算增长趋势已持续14年。如果它们持续,最大模型将到2030年使用10^29 FLOP训练,这量计算将需要2020年最大AI集群连续运行超过3000年。假设持续扩展的必要算法已就位,或将沿途被发现,什么能改变这趋势?一些最紧迫潜在瓶颈已被建议为投资、数据耗尽、电力约束、芯片生产和延迟约束。这些中没有一个清楚是持续扩展的障碍,正如我们在各自章节讨论。

投资是关键不确定性,与所有其他潜在瓶颈以及更广泛市场、社会和治理上下文交互。为持续投资扩展,有关行动者必须看到足够回报潜力。为这发生,扩展必须持续改进能力。能力是否足够改进以证明投资更不确定。这取决于关键AI能力的时间线(已挑战预测),但即使这些也不足以预测投资,因为投资可以在预期回报远前做出。我们在投资中进一步讨论,论证当前趋势和投资支持持续扩展,并且如果AI能够加速远程工作任务的有意义部分,这些趋势可以持续到2030年。 

推理计算扩展不会从训练计算中减损

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

报告的支出和能源分配表明训练和推理计算对于大型AI开发者相当类似量。而且,总安装AI计算已增长约2.3倍/年,类似于前沿AI训练集群(Pilz et al. 2025),表明训练已类似推理增长。

推理计算扩展的最近发展已被誉为范式转变。有些人将这链接到训练扩展将放缓,甚至停止的想法,因为AI开发者焦点于使用推理计算。然而,推理扩展不需要意味着训练计算扩展将停止,因为推理模型也受益于训练计算。

迄今证据表明计算已相当类似分配在训练和推理之间(见上图)。推理已获得更多计算(60-80%),但分配保持类似数量级。更一般,只要可能在推理和训练计算之间权衡,有理由预期AI实验室应持续分配类似资源给每个。训练更高质量模型减少给定性能水平需要的推理量,并在固定计算预算中分配大致相等支持最有效使用(Erdil 2024)。

是否有任何原因推理可能不同扩展于训练?我们能预见的主要原因是如果推理和训练之间的权衡被耗尽。这难以基于现有数据预测,那里此类权衡持续可用。一个潜在例子是电力:如果大型训练运行被需要在少数数据中心集中计算的需要瓶颈,并且无法供应这些的电力,或更贵,那么平衡将转向推理。尽管如此,为推理积极减损训练扩展,此类障碍需要极端。在电力的特定情况下,我们看不到到2030年趋势扩展的阻碍。 

投资

投资必要提供计算。如果计算在其趋势上持续扩展,它将到2030年需要数千亿美元的投资。这是一个极端要求,但如果投资者相信AI将提供显著经济益处,它将是合理的。如果AI能够提高经济整体生产力,它最终将产生万亿美元经济价值,证明这些大型投资。这匹配当今AI收入增长趋势。而且,我们已经可以看到当今投资模式和支出计划与到2028年的扩展一致。 

前沿模型训练成本很可能持续每年增长2-3倍

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

前沿AI模型的训练成本已增加2.5倍每年,并且准备持续。

AI训练成本已稳步更贵。目前,前沿AI模型需要数十亿美元的硬件投资,加上显著能源和劳动力成本。计算的摊销成本达到数亿美元,没有放缓迹象。

这相当可能持续到2030年。正如我们其他地方讨论,下一代AI集群已为2028年定价,表明相关行动者目前愿意至少投资三个更多年的扩展。

什么可能破坏这些投资趋势?清楚有外部事件可能颠覆投资趋势,从AI监管到更广泛经济衰退甚至战争。除了这些,投资 downturn 可能看起来像公司从训练计算投资退缩,焦点于较低成本推理。这可能发生在能力进展相对停滞的世界中。在此类世界中,投资者可能不预期从大型训练投资捕获多价值,返回可能主要从服务接近现有能力水平的AI工具累积。

合理,趋势如果持续AI扩展导致对AI未来回报的市场信心增加,可能向上转移。在一个足够大型训练运行可以自动化所有工作任务的简化宏观经济模型中,最优AI投资快速扩展到世界GDP的双位数百分比(Erdil et al. 2025)。

总体,有相当强理由认为当前投资趋势将持续。投资趋势如果AI预期显著改进经济生产力,可以合理。而且,AI开发者和芯片制造商的当前支出计划与当前趋势一致,支持扩展将至少持续到2028年的预测。 

计算已占开发成本一半,并且很可能增加

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

成本估计表明计算(AI芯片、服务器组件和互连)是开发前沿AI的最大成本。成本估计基于公开报告信息(Cottier et al. 2024)。

模型开发成本的估计表明计算是最大单一成本。这包括实验计算以及大型训练运行。最大非计算贡献是劳动力成本:研究者补偿占支出显著部分(Cottier et al. 2024),最近报告表明研究者薪资可能进一步增加(Isaac et al. 2025)。如果计算扩展在其趋势上持续,它相对于研发员工将作为支出部分增长。这里有显著不确定性,因为研发员工成本增长的公共数据少。 

如果AI收入在其趋势上增长,它们可以匹配这些投资

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

最大AI开发者已估计每年赚取数十亿美元,这些收入在过去几年每年增长约2-3倍。将这趋势投影到2030年表明数千亿美元收入。

对扩展焦点视图的常见异议是所需投资规模。AI开发者真的会投资数千亿美元创建大规模计算基础设施吗?一个相关证据来源是现有AI收入趋势匹配这些投资。如果这收入增长持续,AI开发者将在每个阶段有其价值的清晰证据做出这些大型投资。这也与AI硬件的收入投影一致:如果NVIDIA的收入增长匹配其当前市盈率,那么在其当前利润率下,其年度收入将需要增长到约2000亿美元。这将表明甚至更多被花费在AI服务上(Todd 2024)。

数据

数据在几个方面对AI开发至关重要。首先,并且可以说最重要:大型通用数据集已对语言、图像和其他模态的生成系统预训练扩展至关重要。训练计算增加来自模型大小和数据集大小的增加。数据集扩展今天对进展甚至更重要,因为模型大小只能高效与更多数据扩展。

其次,有各种专家数据的必要。对于通用AI模型,专家数据用于后训练基础模型以创建更用户友好和安全的聊天模型。专家后训练数据也重要以改进广泛有用技能如推理、编码和规划。对于更窄应用,如蛋白结构预测,有对应领域特定数据的直截了当需要。 

数据集将持续增长,但组成不同

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

语言模型的训练数据已增加2.7倍每年。

前沿语言模型已看到其训练数据集增长2.7倍每年。更早语言模型在特定语料库上训练,用于目的如摘要或问题回答。原始GPT论文标志向大规模通用预训练的持久转变。随后,LLM开始在从互联网刮取的增加文本量上训练。

为持续扩展训练计算,公司很可能持续增长数据集大小,虽然数据集确切组成可能显著变化,正如下面讨论。特别是,训练计算可能转向推理训练,这使用更小量人类生成数据。这表明数据集增长可能在未来几年放缓,至少当我们限制于计数人类生成数据时。 

数据不会在2030年前耗尽,虽然人类生成文本可能

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

人类生成公共文本的库存大,估计在10^14和10^15 Token之间,但在其趋势上前沿训练运行可能在2030年前使用整个(人类生成公共文本)数据库存,特别是如果模型过训练。

数据使用趋势表明公开可用文本数据的库存可能很快耗尽。然而,对此有两个重要反论:多模态数据和合成数据。

通用模型越来越在多模态数据如图像、视频和音频上训练。如何测量这些数据与文本的等价性不清楚。如果我们基于现有Token化方案假设,多模态数据可能增加公共数据库存10倍或更多。在历史计算扩展率下,这将支持预训练数据集大小扩展到2030年。为这发生,此类数据上训练需要提供相应有价值AI能力的改进。目前,非文本模态性能可以说落后于文本:视觉问题回答基准在比纯语言基准更简单问题上低于人类性能。因此,我们应预期近期多模态数据的显著扩展,但实验室是否进一步持续这一趋势不确定。

合成数据最近在重要性上增长,因为广泛相信最近一代前沿LLM大量使用它。在许多领域,即使生成困难,解决方案容易验证,例如带有测试的软件工程问题。在其他领域,可能难以高置信验证解决方案,但现有LLM可能能够作为法官。合成数据益处的广度和持久性不清楚,但当前进展表明它将是进一步扩展的重要方向。

在2024年初,OpenAI正在生成每天约1000亿Token的量级,并且自那时使用很可能增加。这代表他们可能生成的合成训练数据合理量。它将表明每年增长可用数据库存数十万亿Token。而且,在合成数据上训练需要比简单训练更多计算,它需要多个推理通过以有模型提出步骤、计算模拟环境,以及潜在推理用于法官模型提供RL信号。

简而言之:很可能传统预训练文本数据来源将很快耗尽,但这不预期阻止进一步计算扩展。只要多模态数据或合成数据证明可行且值得,将有足够数据在其趋势上扩展到2030年。如果合成数据证明特别可泛化,那么通用“数据扩展”可能永不成为瓶颈。

如果扩展持续,专家数据将变得越来越有价值

这引发问题某些种类数据是否将变得更有价值。有少经验证据可抽取,但我们可以指出如果扩展持续改进AI能力,对数据的直观含义。

对于通用AI模型,这表明以下数据将是重要:

  • 具有容易可验证解决方案的挑战问题,具有经济价值能力价值。这里一个典型例子是挑战但容易验证的软件工程问题。这些可以用于生成合成数据用于推理后训练,因此将是特别有价值(Rachitsky 2025)。这里已有证据来自AI开发者焦点于开发挑战基准。
  • 数据不成比例改进模型的“软”技能,例如风格和语气,在合成数据无法处理程度上。这相当推测,但迄今有一些证据:AI公司雇佣研究者焦点于优化系统提示,并投资大型流水线准备精选示例数据。
  • 数据在有价值领域扩展模型知识,特别是如果它们比单纯合成数据更高效。例如,许多AI开发者正在构建AI编码助手。解决关键限制的数据,如在有较少公共代码用于预训练的编程语言中较差性能,将是有价值的。不清楚这是否最好通过合成数据或更多现有数据收集实现。一个重要考虑是模型是否变得更熟练使用搜索工具增强训练知识。在这种情况下,价值结构变化:通过搜索可用数据变得较少重要供AI开发者收集。

对于更窄AI模型,通用答案是“覆盖应用的数据”。在本报告中,我们焦点于科学研发。一个相关例子是生物分子结构和相互作用数据。预存蛋白实验结构数据库对训练AlphaFold至关重要,类似数据库将需要覆盖更广分子范围及其属性。一般,此类数据很可能在(i)没有理由预期从其他数据转移学习;(ii)收集需要专家知识、技能或设备时至关重要。 

硬件

专用硬件对现代AI开发至关重要,并保持进展的关键驱动。我们显示大多数训练计算增长来自扩展集群规模,并认为这很可能在下一代集群中持续。最后,我们讨论分布式训练如何使持续扩展更容易,减少计算共置需要。 

训练计算增长将来自AI芯片,可能不是从更长训练运行

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

历史上,计算增长大多来自增加训练硬件数量。增加持续时间和硬件性能分别做出较小贡献。

对于2018年以来前沿AI模型,大多数计算扩展来自并行运行更多加速器,即增加集群大小。硬件性能改进贡献少于增加集群大小或训练持续时间。

算法和硬件进展阻止长训练运行。如果训练运行太长,模型风险被稍后开始并受益于这些的训练超越(Sevilla et al. 2022)。这表明训练运行面临限制,并可能不增长远超今天典型持续时间的几个月。

同时,AI硬件很可能持续改进。理论分析表明至少可以进一步改进50倍,远超当前趋势到2030年(Ho et al. 2023)。当然,实践中问题可能更早出现。类似于Dennard扩展如何对微处理器结束,AI芯片进展可能放缓。没有这的证据,并且即将芯片一代表明进展很可能持续。扩展部署AI芯片数量也很可能持续,正如下面讨论。 

下一代AI集群已定价

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

购买AI集群硬件的预先投资已增加1.9倍每年。带有数十亿美元芯片的大型集群已在构建。

下一代AI集群提供关于持续扩展的有用证据。最大基于NVIDIA的AI集群已用超过10万H100 GPU构建,更大集群在明年构建中。这强烈表明计算扩展将至少持续一个更多代AI模型。

这趋势可能改变的四个主要原因:投资意愿变化、硬件突破、训练突破,或集群从训练转向推理。我们已讨论如果能力持续扩展,继续投资AI开发的显著动机。我们也讨论转向推理的集群似乎不太可能在大足够规模上发生以放缓训练趋势。

这留下训练效率突破的问题,要么算法要么硬件。此类可能性一定存在,但鉴于迄今扩展的持续趋势,它们不适合我们的默认预测。如果像Transformer架构那样大的算法创新没有破坏趋势,似乎不太可能在未来五年发生此类破坏。

训练很可能变得分布在多个集群

在单个AI集群达到前所未有大小的同时,AI开发的变化可能通过放松共置需要使扩展更容易。到最近,前沿AI模型使用单个集群训练。几个发展表明这在改变,例如多数据中心训练正式报告为Gemini Ultra开发的贡献。这表明训练运行涉及的芯片数量将持续增加,虽然不一定在单个数据中心。

向合成数据和推理扩展的转变可能甚至进一步有利于多集群训练。如果合成数据生成需要大量推理计算,那么这可能更容易跨多个站点完成。如果推理扩展增加此生成数据的质量,那么这可能甚至为训练目的有利于密集推理扩展。

能源和环境

电力需求很可能持续每年增长2.1倍

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

前沿训练运行的电力已增长2.1倍每年,今天的最大训练运行已使用超过100兆瓦(MW)。如果这趋势持续,最大训练运行到2030年可能需要约10吉瓦(GW)。

前沿AI训练电力需求已增长2.1倍/年。在此期间训练持续时间也增加,因此前沿训练的总能源使用已增加约3倍/年。这些数字反映单个模型训练的趋势,大多数组织一年训练多个模型,以及使用计算进行实验。

同时,推理较少文档化。焦点仅于大型前沿模型的AI开发者,如OpenAI,据报告在推理和训练上花费类似量(Snodin et al. 2025)。部署更小模型的开发者,如Meta,报告分配约20%的总AI计算到大规模训练集群。然而,不确定其余部分多少专用于推理,因为更小模型也需要训练(Wu et al. 2022)。

AI的总电力量(训练和推理,包括非前沿模型)更难跟踪,更不用说预测。基于AI芯片生产和超大规模者资本投资计划的投影表明每年1.5-2倍之间(You and Owen 2025)。这仍与单个训练运行更快增长兼容:它们可能简单增长到占总AI能源使用的更大部分。

所需电力是对前沿AI训练运行的显著挑战。如果扩展在其趋势上持续,最大训练运行将到2030年需要约10吉瓦(GW)。此类功耗超过除最大发电厂外的所有发电,并将呈现巨大组织挑战。这可能导致放缓:或许超出低吉瓦训练运行的扩展到2030年在后勤上不可实现。另一方面,如前所述,前沿AI训练运行已开始地理分布在多个数据中心,这将缓和挑战。而且,有快速扩展电力交付的方式,如太阳能和电池,或离网气体发电(Datta and Fist 2025)。如果对AI扩展的需求在其当前趋势上持续,最大训练运行应至少达到多个吉瓦,匹配规划的集群构建(You and Owen 2025)。

如果计算趋势持续,AI的排放将增长到全球预计总量的0.03-0.3%

迄今,AI似乎通过增加数据中心能源消耗增加了净碳排放。例如,Google在抵消前的基准碳排放从2019-2024年增加48%。这增加的大部分来自AI数据中心(Google Sustainability 2024)。数据中心有两个排放来源:数据中心具现排放(建设和硬件制造),以及运营排放(数据中心能源供应)。在本分析中,我们焦点于能源供应,估计构成领先AI数据中心总排放的70%以上(Google Sustainability 2024)。

取决于将供应数据中心的能源组合,计算和数据中心能源消耗的当前趋势表明AI可能构成全球排放的0.03-0.3%。这将是实质增加,但仍小于所有数据中心、AI和非AI的现有排放(2025年1.8亿吨CO2e)(IEA 2025c)。这范围的下端是一个激进下限,本质上依赖大规模太阳能供应。这范围的上端基于当前电网平均碳强度,这也接近天然气的碳强度。 

AI排放在当前趋势下的计算示例

假设

  • 我们焦点于运营排放,即不包括制造和建设的具现排放。
  • 我们假设起点是AI数据中心在2023年使用约10太瓦时(TWh)。这来自基于2023 NVIDIA硬件销售的估计,取估计范围的高端。
  • 备选检查:到2024年中约370万H100等效可用。如果这些全为H100效率(700瓦(W))并 nonstop 运行,这约为23太瓦时(TWh)。这高于更早2023估计合理,因此它们相当一致。
  • 我们假设起始总世界电力需求为23000太瓦时(TWh),除AI外这持续在其最近2.7%每年趋势增长到2030年的26300太瓦时(TWh)。从这意义上,这是保守估计,如果非AI增长比这更快,正如电动汽车 rollout 可能,AI将占总量的更小部分(IEA 2025b)。
  • 2024年总全球CO2e排放为374亿公吨。我们悲观假设非AI排放在其趋势上以7%/十年增长到387亿公吨。

如果AI电力需求在其趋势上持续增长,AI将对全球排放贡献多少?

  • 假设专用AI功耗每年翻倍,即跟随与训练计算增长4-5倍每年相关的当前趋势。到2030年它将达到640太瓦时(TWh)。这将是总电力需求的2.4%。
  • 以全球电网平均碳强度(400克CO2e/千瓦时(kWh))的能源组合将表明1.24亿吨CO2e排放。这是一个悲观估计;大多数数据中心使用大量可再生能源。这悲观估计将构成2030年排放的约0.3%。
  • 如果碳强度反而是太阳能电池板的报告值(40克CO2e/千瓦时(kWh)),这将是2030年排放的约0.03%。

AI开发的能源将增加,但有减少排放的空间

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

到2030年的预计AI排放可能显著(上),虽然有许多AI应用减少排放的机会(下)。大多数预计AI排放(约95%)来自2025年后增长。减少估计是潜在减少的近似计算,即基于现有程序和研究的证据可能实现的全范围。见附录:AI减少温室气体排放的潜力获取更多细节。

一个自然问题是AI增加的排放是否能有意义抵消。有三个潜在方式这可能发生:(i)低碳能源的大幅增加,完全抵消AI数据中心;(ii)AI算法和硬件在效率上足够改进以改变能源消耗趋势;或(iii)AI下游应用能够足够降低其他地方碳排放以抵消增加。

AI数据中心已显著使用来自太阳能、风能和水电的可再生能源,虽然它们往往使用其他来源作为可靠基准负载来补充间歇太阳能或风。然而,问题不像数据中心将使用什么能源组合那么简单。如果数据中心依赖可再生能源,但将其他需求移置到非可再生来源,净效果将是增加排放。因此问题更涉及:可再生能源能否足够快速增加以匹配AI需求增长?

构建足够清洁能源容量以覆盖来自AI数据中心的需求将具有挑战,但合理。可再生能源预计从2023年全球发电的30%增长到2030年的46%(IEA 2024)。在IEA的可再生能源转型加速时间线下,这反而可能到2030年达到60%。因此来自AI的预计电力需求(1.2%)小于能源转型的社会选择。预计46%和可行60%可再生能源电力份额的差异是来自AI预计需求的两倍。

AI算法和硬件在效率上的改进似乎很可能持续。然而,迄今AI的历史应给我们暂停。AI方法已在效率上改进数量级。然而,这与功耗的大规模增加并行。只要有强激励扩展硬件用于训练和/或推理,效率改进似乎不太可能减少净能源消耗。效率改进的历史趋势隐含包含在我们上面的估计中。

AI的下游应用是最难决定性回答的问题。AI能否减少经济其他地方的排放足够以抵消其负责的排放?这将大大取决于由于AI的排放(使用多少计算,以及什么能源组合支撑它),以及AI模型的下游影响(它们能避免什么温室气体排放?)

如果AI变得负责总排放的有意义部分,将具有挑战足够抵消其他领域的影响。相反,为AI达到此类难以置信的能源消耗水平,它将需要极端有价值,因此我们预期其社会影响大。系统考虑AI可能减少排放的所有可能方式困难。似乎合理AI可用于更好地预测电气电网中的电力供应和需求,支持更多可再生能源使用;或AI可用于优化运输共享和路由,减少汽车排放。当然这高度取决于部署和优先级,并依赖于可实现什么的激进估计。 

插曲:从规模到能力

证据:基准、当前AI使用,以及领域专家

我们已论证,根据当前趋势,2030年的最大AI模型将使用比今天多1000倍的计算训练。到2030年,我们将看到类似于GPT-2和GPT-4之间扩展的跳跃。鉴于AI开发的此类持续扩展,我们如何推理2030年的AI将能够做什么?为奠定我们的讨论,我们使用三个证据来源:AI评估、当前AI系统的使用,以及领域专家的预测。

如扩展和能力中讨论,一旦性能开始超出随机机会改进,AI评估性能往往随着规模相当可预测地改进(Owen 2024a)。因此,我们焦点于从迄今显示进展的评估推断,并突出完全超出当前AI的评估,因此较少可预测。

对于许多领域如软件工程,高度相关基准存在,与真实世界问题相当清晰链接,并可用于推断。对于其他领域,基准覆盖较少清晰代表真实世界工作任务。尽管如此,我们往往可以从AI能力的单个例子看到证据,例如,可能没有AI辅助蛋白设计的系统基准,但单个结果告知我们AI当前能实现什么。

有一个始终存在的风险基准结果不反映真实世界性能,通过缺乏代表性,通过模型在度量上过拟合,通过测试集污染等。尽管如此,基准在开发AI系统中发挥关键作用,并是跟踪进展的有价值信号。小心解释,它们应关于AI能力信息丰富。

同时,现有的AI系统使用是真实世界有用性的强证据。这不是总是面向未来的,它需要现有AI系统已有用,最好以匹配我们试图推断的格式。例如,软件工程AI已广泛用作编码助手在密切人类监督下。这是对程序员有用的强证据,以及改进很可能提供进一步益处。然而,这仅提供弱证据关于独立AI编码代理何时变得实际有用。尽管如此,在存在的地方,真实世界使用表明AI真的准备贡献于一个领域。

最后,另一个有价值证据来源来自领域专家。许多研究者积极实验当今AI系统,并反思未来AI如何改变他们的工作。领域专家的预测提供关于他们预见AI将有的效果的有价值信息,以及他们看到的整合AI到他们工作中的潜在障碍。

通过将这些证据来源合成到AI能力的定性描述,以及它们如何在研发领域运作,我们描绘AI如何到2030年加速科学研发。但在考察这些更具体预测前,我们讨论它们将位于的更广泛上下文:AI使能的经济跨许多任务的自动化。

经济跨广泛自动化的还是焦点于研发?

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

AI未来影响的讨论往往焦点于激动人心的应用领域,科学研发是一个首要例子。这告知我们如何思考研发任务的自动化。

显式研发占最近十年美国劳动生产力增长的约20%,而这仅占真实GDP增长的约一半。相比,资本深化占劳动生产力增长的约一半。劳动生产力增长的其余归因于“更好管理、边做边学、知识扩散等”(Erdil and Barnett 2025)。换言之,为最大化近期经济输出,更有效扩展有效劳动力(自动化经济跨许多任务并运行更多)。由于研发所需技能与其他任务重叠,这表明广泛自动化将至少与研发自动化并行发生。研发劳动力是特别有价值的劳动力,因此先验我们应预期更多努力专用于自动化它,但不是独占努力。

本质上,这是自动化将是经济跨扩散过程的论点。为给出具体例子,想想软件工程。有许多软件工程任务在研发中,并且其中一些甚至今天被AI自动化。然而,按量,被自动化的大多数软件工程工作不是在研发;它是帮助后端和前端开发者开发商业和业余软件。研发软件工程的自动化可能最终贡献更多于长远有更大影响的新技术,但基于历史例子这将是更长时间尺度,并且不会是部署的唯一或甚至首要焦点。

然而,AI研发可能特别显著和良好代表自动化,并且有论点它将是看到自动化的首批领域之一。潜在,AI研发是一个有研究努力递增回报的领域,并且自动化它导致正反馈循环(Erdil et al. 2024)。这是软件仅奇点讨论中预想的成果,如AI 2027(Kokotajlo et al. 2025)。在本报告中,我们焦点于算法创新与计算互补的场景,以及AI研发自动化与经济其他任务自动化重叠。尽管如此,难以排除AI研发的快速自动化,并且它是AI进展可能比我们投影更快的关键方式。

经济跨AI自动化可能价值万亿美元

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

通过自动化AI能生成的不同高层经济价值估计。预计AI公司收入(上,在投资中讨论)大致与广泛生产力提升的经济价值一致,即约1% GDP增加。同时,更激进的任务自动化模型(下面在“估计AI的经济价值”中讨论)表明双倍输出50%远程工作任务可能增加GDP 7-10%。

如果AI部署跨经济,它可能价值多少?我们考虑基于双倍非物理工作任务输出的几个不同估计。答案高度取决于AI能力和部署,但广泛AI工具可能合理生成万亿美元经济价值,简单通过改进非物理工作的生产力。即使此类收益到2030年尚未实现,投资可以基于对AI能力和最终部署的信念做出,而不是到那时点的部署。

我们能否现实看到大众自动化快速加速50%远程工作任务到2030年?基于经济历史,即使技术可行,有怀疑理由。它将需要难以置信快速整合技术到工作。这可能被AI帮助协调再分配加速,但尽管如此似乎难以想象。另一方面,AI技术已看到历史上任何技术的最快采用(Hu 2023)。而且,在更长时间尺度,有部署的强激励,鉴于实质经济优势。如果AI收入持续其当前轨迹,那么到2030年似乎很可能或者AI将生成万亿美元经济价值,或者这将在视线内。

以上投影假设介于“AI是远程任务一半的有帮助工具”,和“AI能完全自动化远程任务一半”之间的情形。为更极端预测,考虑未来AI能执行今天远程工作者能做的任何任务的含义。想象数十亿此类AI远程工作者将在经济中实现大效果如此远 fetched 吗?技术公司贡献当今GDP的约10%。此类AI可能创建类似组织,并且这已开始类似于以上激进投影。

估计AI的经济价值

我们考虑类似现有文献的任务基自动化模型(Barnett 2025; Acemoglu and Restrepo 2018)。劳动力分配到任务,当与资本结合时一起产生经济输出。自动化任务有其“有效劳动力”由乘数增加以反映AI效果。我们使用这模型预测经济跨广泛AI工具和助手的生产力收益效果。

在此类模型中,任务有些互补。例如,想象一个软件公司双倍其软件工程任务的劳动力输入(或许通过雇佣更多软件工程师)但不增加其销售和广告任务的劳动力输入。此类公司将双倍其收入吗?或许如果原始软件劳动力输入远低于需求,但一般我们应预期销售将成为增加瓶颈。

任务间互补不是明显。在我们的建模中,我们分别考虑相当可替代任务和相当强互补,基于文献范围值。这分别导致自动化的大和小收益。

在美国,约34%工作任务估计是远程兼容(Barnett 2025)。我们用这作为AI暴露代理,假设先进AI能加速远程工作的某些部分。我们考察这些被自动化的不同部分,从10%到50%。

为简化分析,我们假设自动化任务的计算成本相对于人类工资小。在AI当前能执行的任务中有这的现有证据。而且,给定水平AI模型输出快速变得更便宜生成,基于过去几年LLM推理价格的观察(Cottier et al. 2025)。我们忽略人类劳动力再分配的进一步可能收益。我们将经济建模为固定任务集,有固定人类劳动力分配,在自动化任务中看到生产力增加。

双倍输出10%远程任务将给出1-2% GDP增加,产生万亿美元经济价值。在远程任务一半中增加输出10%将有类似效果(约1% GDP)。双倍输出远程任务一半将导致6-10% GDP增加。

关键问题是这增长将如何在时间线上实现。我们的经济模型对发生此类效果的时间线无言。这将取决于部署和采用。预计AI收入与大致符合1-2% GDP增加的AI支出一致,表明时间线可能早在2030年。然而,支出可以预先效果,论点更长时间线。相关例子是网络投资,那里需要约十年电商销售匹配1999年的IT公司投资。似乎安全假设“十年”是悲观上限,只要AI实际实现必要能力。

一个常见异议是来自自动化的增长投影太乐观,因为它们未能考虑Baumol和Engels效果。这两个都是减少来自生产力改进的价值的效果,因为生产力改进改变经济不同部分的相对价值或结构。我们下面进一步解释每个。

Baumol效果当停滞经济部门需求类似于看到自动化的部门工资增加时限制来自增加生产力的经济收益。这也可以在任务水平理解:难以自动化的任务最终变得更经济重要,并且更容易自动化的任务最终减少其边际价值,正是因为它们丰裕。这里,Baumol效果由任务间互补隐含捕获。随着自动化任务有效劳动力增加,非自动化任务劳动力的边际价值相应增加。我们不显式建模工资,但任务的经济价值将最终设置其工资(原则上),因此这些本质捕获相同Baumol效果(Acemoglu et al. 2024)。也有关于Baumol效果整体大小的经验证据,我们在覆盖Engels效果后下面讨论。

同时,Engels效果随着收入上升导致对任意商品和服务更多需求限制来自增加生产力的收益。在这些看到更低生产力收益的程度上,Engels效果加剧Baumol效果。我们这里不建模Engels效果。先前经验估计表明Baumol和Engels效果将美国GDP增长减少约25%在1948和2014之间(Baqaee and Farhi 2019),这不会实质改变这模型的结论。

正如在能力如何部署中将讨论,我们相信将有足够推理计算用于AI的广泛部署。根据当前趋势,将有足够AI计算为所有现有远程兼容工作分配一个H100等效。当然,在许多请求中供应和服务这计算将有巨大工程挑战;然而,这粗略计算表明将有足够物理计算可用。 

科学研发中的能力

我们现在转向考察AI很可能实现的具体能力,以及它们将如何影响科学研发。最近框架突出AI在科学中的五个关键机会:知识、数据、实验、模型,以及解决方案(Griffin et al. 2024)。这里,我们审查几个不同科学研发领域,每个呈现这些机会的不同轮廓(贯穿斜体)。

在软件工程中,根据当前趋势,AI编码助手和代理很可能导致良好范围问题软件的丰裕。这显然可以贡献于科学软件开发。用于软件工程的AI将作为通用生产力提升,对几乎所有这些机会相关。领域如数据分析和基于软件的实验和模型显然将从可用软件工程的大幅增加中看到益处。

在数学中,似乎很可能AI助手将跟随软件路径,随着时间变得越来越有用和独立。如果AI能减少形式化的障碍,它可能转变数学家生成和分享知识的方式。AI也可能作为解决方案工具帮助开发直觉向完整证明,直接解决有意义规模的子问题。

在分子生物学中,存在两个不同愿景驱动AI加速。针对性AI工具如AlphaFold将持续改进,导致关于关键生物过程的前所未有数据和模型。同时,通用AI助手可能革命知识分享并通过反馈加速实验。两个路径将并行追求,并且有丰富数据的基础科学领域研究应蓬勃发展。然而,向更广泛社会益处的转化很可能发生在更慢时间帧。

在天气预测中,AI可以增强天气系统模型,并将导致日常天气和极端天气事件的预测持续改进。从广大不同模态整合数据提高进一步改进的前景。现有社会决策应从改进预测受益于领域如农业、紧急规划、运输,以及电力和水基础设施。随着显著改进,天气预测可能在当前被忽略的其他领域使用,虽然这更难预测。

能力如何部署

跨所有这些领域,有两个反复主题:

  1. 基准进展如何相关于真实世界能力进展?
  2. 那些真实世界能力的部署何时发生,以及它们有什么效果?

基准进展是惊人的。AI快速改进几乎每个我们详细定义的任务,包括领域专家发现困难的挑战。对于解释此类结果有显著的附带条件,但我们认为即使不完美基准作为关于AI能力真实进展的信息丰富信号。为基准创建的任务往往以某种方式人工,它们需要容易可验证,它们由研究者创建旨在探测当前AI限制等。尽管如此,基准进展清楚反映一些底层真实进展。而且未来基准由AI解决基准发现的突出差距告知。因此,基准可能在底层能力完善前被解决,但将做出显著进展。

然后,有部署的关键问题。特别常见讨论的是可靠性、整合到工作流,以及成本。另一个问题,跨开发和部署,是专家数据。我们依次讨论每个,然后用它们考察每个领域内AI在科学研发的潜在影响。

可靠性。当系统不可靠时,变得难以大规模部署它们,以及难以自主部署它们。AI系统可以臭名昭著不可靠,尽管显示在基准和演示中的令人印象深刻能力。例如,LLM往往显示即使在基准例子小扰动上的降级性能(Mirzadeh et al. 2024)。这在一些应用中比其他更多问题:例如,如果数学结果能容易形式化和检查,可靠性问题是相对次要。同时,表明可靠性也随着时间改进(Kwa et al. 2025; Vendrow et al. 2025)。这表明部署将首先发生在可靠性较少关键的领域,但它不太可能是长期障碍。

整合到工作流。在真实世界工作中使用AI系统往往需要跨许多相互交互任务的复杂变化。这可以显著阻碍生产力改进。在大多数情况下,这相当特定于单个工作流。我们在每个标题下讨论部署前景。一般,部署在错误后果较少严重的领域更容易,例如数学对比生物研究。部署在较少需要慢经验反馈循环的地方更容易,例如文献研究对比湿实验室实验。而且部署在数据可用性问题较少的地方更容易。一个反复出现的关键问题是使用AI系统的性质:是否完全或部分自动化任务,以及它们自动化的任务时间视野。

部署成本。有两个成本涉及:从改变工作流的成本,以及推理计算。改变工作流可以改变成本当任务被重新排列;例如,生化学家可能使用生物分子结构预测减少他们在实验室实验上的时间和预算,但这也可能需要他们花费更多时间弄清楚哪些实验仍必要。这些变化可以难预测,虽然我们在每个部分讨论其前景。这密切相关于前一点关于可靠性。

同时,对于推理计算成本,有显著乐观原因。迄今证据表明给定能力水平的AI推理成本随着时间快速下降,10倍每年或更快(Cottier et al. 2025)。如果这持续,那么即使现有最先进基准结果使用昂贵水平的推理计算,它们将快速变得更便宜。相关,当AI能够执行任务时,迄今它通常成本低于人类工作者(Wijk et al. 2025)。这表明推理成本仅将是长期瓶颈如果(i)推理单位成本高原,或(ii)AI自动化需要执行比当前更多任务实例。

考虑所需容量的一个有用方式是考察总安装AI计算趋势,并与所需推理计算量比较。根据当前趋势,总安装AI计算容量到2030年将是6亿H100等效(硬件)。这计算将用于哪里?似乎很可能至少一半将分配用于推理。推理将用于什么?自动化任务,从图像生成到编码到无数其他应用。全球劳动力约30亿,工作约其时间的三分之一,其任务约四分之一是远程兼容。如果每个远程工作者需要一个H100等效用于其2030年AI使用,这需要约2.5亿H100等效,即大致投影可用计算的一半。在实践中,推理计算将根据其价值和自动化易感性跨不同任务分配。尽管如此,这粗略计算表明应有足够计算用于AI能力大规模部署。

专家数据。数据可用性问题可以影响部署和开发。当数据昂贵或后勤困难时,数据收集特别具有挑战。例如,包括实时部署需要传感器安装(天气预测),或专家湿实验室数据收集(生物分子相互作用)。我们考虑这的细节分别在每个领域内。一般,领域如软件和数学较少受这问题影响,由于容易生成数据而无需物理实验。

我们在下面表中提供这些挑战按领域的上层总结,然后在专用部分中更详细讨论每个领域。跨本报告考虑的所有研发领域,我们看到AI机会丰富,并且当前趋势指向巨大影响。这在领域如软件工程和蛋白结构预测特别引人注目,那里现有真实世界使用确认基准的初始承诺。

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

不同挑战的定性评级,其中✓表示挑战可解决或非阻塞,✘表示它可能阻止采用。双图标表示更自信结论,例如当今采用或更强论点。

软件工程

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

SWE-bench 验证:基于解决真实世界GitHub问题并带有相关单元测试的编码基准。结果包括从模型卡报告的,包括有私有方法论如Claude Sonnet 4。如果限于公共记分板,趋势将类似。

RE-Bench:基于类似于求职者家庭评估的任务的研究工程基准,对人类约八小时。

AI已通过编码助手和问题回答转变软件工程。到2030年,根据当前趋势,AI将能够自主修复问题,实现特征,并解决困难(但明确定义)的科学编程问题。

软件工程是前沿AI开发者的特别兴趣领域,既有聊天界面也有像Copilot这样的工具广泛采用(Yepis 2024)。而且,软件工程是跨许多领域的科学研发的关键部分。AI研发特别耦合于软件工程,因为许多AI研究围绕软件工程设计新算法、开发新AI模型等。然而,软件工程是其他领域如物理、化学、生物等科学工作的重要部分。

现有进展关于2030年软件工程的AI表明什么?我们考察三个证据来源:今天AI用于软件工程的真实世界使用、基准进展,以及领域专家表述的当前开放问题和研究。一起,这些表明AI将戏剧性改变软件工程,并且已具有显著效果。然而,关于AI能力自主执行真实世界端到端挑战任务仍有显著不确定性。基准结果表明向这水平的快速进展,但领域专家仍分歧,特别是关于可靠性和工作流整合。

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

今天AI系统已能从自然语言规范提供实现,在代码编辑期间做出建议,并自主调查和解决bug(Cui et al. 2025; Jimenez et al. 2024)。然而,到今天,这些AI能力不可靠,并且典型适用于工程师工作较易端的难题(Miserendino et al. 2025)。考虑SWE-bench 验证版作为例子。这些问题是取自真实GitHub问题,但仅那些带有单元测试提供是否AI尝试成功的不歧义解决。因此,几乎所有这些问题触及一两个文件,并且主要解决小问题。今天基准领先分数约70%。这远好于随机机会,但远非可靠。因此,今天AI主要用作助手,有密切监督。大多数现场研究发现20-70%生产力改进,按开发者和领域显著变化,虽然一个严格现场研究发现惊人20%放缓(Cui et al. 2025; Becker et al. 2025)。

然而,许多流行基准以自主工程代理进行问题,进行端到端显著软件任务(Jimenez et al. 2024; Miserendino et al. 2025; Wijk et al. 2025)。在其极端,这可能改变软件工程的性质,有人类工程师监督编码代理(Yang et al. 2024)。解决以上基准不会清楚导致达到这极端结果:在两种情况下,与真实世界问题相比,基准更清晰定义、更短,并且概念更简单。尽管如此,解决这些将是清晰进展迹象。

匹配监督虚拟工程师团队的解释,几个AI研究者已预测AI将能够在未来五年自主执行他们工作中实质实现任务,在能够竞争更高水平规划和创建研究想法前(Owen 2024b)。最近证据表明AI能以给定可靠性水平执行自主软件基准任务的时间视野稳定每年增加3.3倍(Kwa et al. 2025)。在AI研究中,有计算昂贵实验和训练,如果AI代理自己分配显著计算资源,例如用于ML实验,AI代理将需要极端可靠。然而,对于较低风险任务,如网页的实现和调试,画面更乐观。

自动化主导软件丰裕的什么挑战可能挡路?一些最常见提出的担忧是推理成本、可靠性(有结果需要人类监督),以及潜在AI在开放问题解决中的缺陷(Owen 2024b)。

迄今,软件代理的推理成本相对负担得起:在AI已成功解决的更挑战基准问题中,推理成本远低于对应人类工资(Wijk et al. 2025)。然而,有重要的附带条件,解决更难问题可能需要进一步推理扩展。与这平衡,领先模型的推理成本已戏剧性更便宜,以10倍每年或更多速率(Cottier et al. 2025)。即使有可比于训练计算扩展的推理扩展(4-5倍每年),根据当前趋势成本将减少。这暂定表明推理成本不太可能是中期瓶颈。

“监督虚拟工程师团队”的另一个关键障碍来自可靠性。如果有任何需要人类工程师干预并深入代码,这将作为重要瓶颈。一个自然比较是今天监督初级工程师,有相关需要更经验工程师提供偶尔详细输入。如果AI可靠性保持有意义低于人类,这可能遏制软件代理的有用性,使它们更接近扩展编码助手。

同时,AI是否能够自主解决更开放问题的问题保持难预测。最近基准如SWE-Lancer表明真实世界自由职业任务已AI软件代理可及,尽管比SWE-bench任务更开放。AI代理可能很快能够解决可比于几小时长自由职业软件工作的任务,更难任务仅对AI-人类组合可及。根据当前趋势这似乎很可能持续改进,导致一个世界,其中至少,原型或分析的软件工程代理便宜且无处不在。

数学

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

结果仅显示通用LLM,不包括领域特定系统如AlphaProof和AlphaGeometry2(2024年中)。

  • AIME:用于确定进入美国数学奥林匹克的高中数学考试,整数答案。
  • USAMO:美国数学奥林匹克,高中有基于证明答案的数学考试。
  • FrontierMath:焦点于挑战问题直到专家水平的数学基准,但仍提供直截了当可验证答案(数字或简单表达式)。

用于数学的AI可能很快能够作为研究助手,尝试充实证明草图或直觉。数学家的早期叙述已记录AI在他们工作中帮助。然而,可能需要对数学家工作流做出重大变化,以使AI工具广泛使用。著名数学家在他们认为现有数学AI基准对其工作相关性上大大不同,以及在他们对AI何时能够自主开发数学结果而不是作为助手的预测上。

数学基准比软件工程基准离专业数学家工作任务更远。许多常见数学基准焦点于考试,例如学校考试,或更挑战邀请赛包括各种数学奥林匹克。这些可能关于AI进展信息丰富,但一旦基准被解决,在有用能力方面有较少自然解释。一个值得注意例外是FrontierMath,它尝试制定类似于早期职业研究数学家面临的问题,虽然保持容易可验证。

几个著名数学家强调FrontierMath最难问题的显著难度。随后在这基准上的快速进展引发问题这些问题是否如它们似乎那么难。一个潜在问题是,为使解决方案可验证,许多问题使用数字答案。数字问题可能易受蛮力,尽管设计者意图避免这。因此有风险基准高估挑战数学推理的进展。尽管如此,与基准有效性问题分开,几个著名数学家预期数学AI的快速进展,甚至预测(高度不确定)十年时间线到数学研究的完全自动化(Glazer et al. 2024)。

如果像FrontierMath这样雄心数学基准被解决,对数学中AI的含义是什么?数学家已分享他们对能够解决此类问题的AI将贡献于他们工作的效用的想法。他们建议此类AI可能“验证计算、测试猜想,并处理例行技术工作,同时将更广泛研究方向和洞见生成留给人类”(Glazer et al. 2024)。另一个领域,几个数学家感兴趣,是使用AI进行形式化和通信。

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

复杂化我们的分析,有几个更窄数学AI系统,其中许多已实现迄今最令人印象深刻的结果之一。形式系统如AlphaProof在通用系统前实现IMO问题高分,但尚未记录为在研究中有用。其他AI工具已被用于指导研究者向有前景猜想或优化约束下问题,导致有显著数学家输入的新结果(Davies et al. 2021; Romera-Paredes et al. 2024; Novikov et al. 2025)。这与更早实验数学工作有显著重叠,但可以利用深度学习方法检测传统机器学习不会检测的模式。这些结果来自窄AI系统和基于LLM的任务特定系统,与来自领域专家的广泛问题特定设置工作结合。合理更窄AI工具将在通用系统前变得大规模有用,或者甚至同时。这主要取决于近期AI能力的更广泛不确定性。

不像软件工程,没有系统研究考察现有AI对数学家生产力改进。然而,有著名声明数学家使用AI协助他们的工作。除了来自更窄AI使能工具的以上结果,数学家已分享他们与通用LLM工作的早期印象。当前叙述表明它们远非可靠帮助,但有时在日常研究中有意义帮助,例如成功制定推导(Burnham 2025)。

什么可能阻碍数学AI的真实世界部署?几个数学家已注意负担得起部署的重要性、专家数据缺乏,以及解决开放问题的重要性(Glazer et al. 2024)。

由于软件工程中讨论的原因,有理由预期即使推理计算戏剧性扩展,成本减少很可能补偿这。同时,专家数据缺乏可能是重要瓶颈:许多研究领域依赖少量相关论文,并且取决于AI系统的数据效率,简单可能没有足够数据用于有用学习。数据缺乏也可能相关于关于开放问题解决的担忧:数学家发布他们最引人注目问题的证明,而不是分享他们推理过程、错误和进展的广泛文档(Glazer et al. 2024)。

最后,AI辅助数学结果的蓬勃可能被工作方式瓶颈:为跟上大量AI生成结果,偶尔易于幻觉或微妙错误,形式化将需要变得更常见,这可能带来其自身挑战(Yang et al. 2024)。

尽管如此,从AI进展和专家意见的整体画面相当乐观:AI很可能贡献于数学研究,至少变得类似于今天软件工程中使用的帮助助手。我们预期研究发现的速度将相应于这些助手变得多强大而增加。默认将需要几年新数学结果变得相关于应用研究,表明开始对更广泛社会可见影响少(Frontier Economics 2014)。关于数学研发经济益处的现有研究往往焦点于应用研发,计算涉及计算机科学、数据分析等职业的GDP贡献(Deloitte 2013)。长远,基础数学研发的增加输出应有实质溢出益处于应用使用。逐渐,AI使能的数学研究扩展将转变更应用科学,结果很可能扩散跨密码学、统计、计算、物理以及更多。

分子生物学

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

PoseBusters-v2:蛋白-配体对接(空间相互作用)的基准。我们仅包括盲结果,其中蛋白的结合口袋未提供。

ProtocolQA:关于生物湿实验室协议的问题基准,这里评估无多选答案。

蛋白-蛋白相互作用:预测蛋白-蛋白相互作用有显著进展,但任意对的预测有高假阳性率。我们对进展的说明高度不确定,并将取决于基准细节。

科学家预想分子生物学中AI的两个不同路径:像生物分子建模这样的任务的变革AI工具,以及自动化研究过程部分通用AI助手。工具如AlphaFold已革命领域,并将扩展预测更复杂结构的更多属性。同时,用于生物研究的AI助手处于早期阶段,但提供加速许多关键研发步骤的承诺。

在生物中有许多不同应用AI已显示巨大承诺。AI已在许多领域调查:生物分子结构和相互作用预测、基因组数据分析和编辑、成像、实验室机器人,以及更多。由于领域广度,我们焦点于代表专用工具和通用代理分界的两个关键领域:用于生物分子预测和设计(特别是蛋白)的AI,以及生物桌面研究。其他研究领域可能至关重要,但要么较少直截了当地在AI权限内(如用于湿实验室研究的机器人和成像),要么较少直截了当分析。

用于生物分子预测和建模的AI已看到惊人成功。AlphaFold2的主要作者最近分享2024年化学诺贝尔奖。像AlphaFold这样的AI方法已革命蛋白结构预测,在许多良好表征蛋白域在其平衡状态实现近实验准确。随后工作尝试将这些成功带到其他问题,如其他生物分子如DNA/RNA、动态结构、分子相互作用,甚至靶标识别和蛋白设计。

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

同时,用于桌面研究任务的AI仅最近看到进展,LLM最近解决一些第一个关于挑战文献搜索问题、实验协议推理以及解释图的多选基准(Laurent et al. 2024)。目前,用于生物研究任务的AI主要作为表达但易出错的专家知识搜索引擎。在生物中,迄今来自AI的最可见令人印象深刻结果来自“工具”而不是代理,虽然最近激动结果存在,其中AI文献研究工具已建议药物再利用靶标、新治疗,以及其他应用(Gottweis et al. 2025; Lu et al. 2024; Huang et al. 2024)。

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

2030年的AI辅助生物研发可能看起来像什么?生物分子预测基准和真实世界使用提供暗示。又,我们焦点这讨论于围绕生化、药物靶标,以及最终药物开发的特定领域。基准进展表明其他生物分子预测任务(RNA、DNA、蛋白复合物、小分子、相互作用等)将看到类似于蛋白的类似预测进展,只要能找到或生成足够数据。结构预测将稳定改进,支持更好预测其他属性如受体结合(Zambaldi et al. 2024)。实验室实验将保持至关重要,但调查给定靶标应整体需要较少研究者时间。同时,探索文献、调试实验,以及分析结果很可能被AI协助,这似乎很可能饱和现有关于桌面研究和协议调试的基准。专家在哪个将贡献更多上分歧,但预期两个领域进展。

这应显著加速早期研发,提出新药物靶标并调查它应整体需要较少研究者时间,同时转向有更好特性的药物(更高结合亲和力、更低毒性、与其他靶标较少相互作用等)。然而,下游药物开发很可能到2030年看到适度端到端生产力效果,特别是鉴于新生物医学治疗的时间要求和监管过程。新药物典型需要八年通过试验和批准(Brown et al. 2021)。很可能2030年批准的药物是那些今天已在试验流水线中的,因此它们早期开发的任何AI涉及已在过去几年发生。

这不是低估AI的更长期影响。制药流水线的长持续时间也支撑AI加速药物开发的机会。历史上,对于给定药物,大多数时间花费在其早期开发中,一个研究识别新靶标从启动到第一个临床试验的中位二十八年(McNamee et al. 2017)。加速早期研究可以相应加速这些时间线。

在更长期,体外预测可能导致远优于当前被试验的治疗。AI设计治疗可能更有效、有较少副作用,并看到更高试验成功率,这反过来可能改进药物开发的经济学。目前,约一半制药研发支出在焦点于这些属性的临床试验上,跨三个阶段每个阶段失败率约50%(Sun et al. 2022)。即使忽略其他益处,减少昂贵晚期失败的频率可能是变革。还有可能性完全新生物医学过程可能被AI设计和组织促进,概念类似于mRNA疫苗的过程,可以安全年复一年更新而无需从头批准(Brown et al. 2021)。每年数百亿美元花费在制药研发上,以及万亿美元在药物上,意味着下游影响将高度有价值。

研究者已频繁讨论两个其他重要潜在瓶颈,如专家生物数据需要,或湿实验室实验的持续重要(Lowe 2024b)。专家数据至关重要,并且是一个开放问题其他问题是否像蛋白结构预测那样易于数据收集。一个有前景迹象是几个倡议已在为生物AI开发收集大量生物数据。鉴于持续改进生物AI的显著激励,数据收集似乎很可能进一步扩展。相反,湿实验室实验几乎一定持续作为日常工作的重要部分,并且这里不确定性是那瓶颈将多显著。这将主要取决于改进AI方法能减少所需实验量的程度。在几个真实世界例子中,蛋白结构预测已实质减少实验持续时间。尽管围绕数据和实验需要的担忧,AI应有意义加速生物研发。

混合。而且当我们将我们的模型与AlphaFold的预测结构结合,我们突然可以看到整个系统如何工作。”像这些引述不能确定跨许多项目平均整体时间节省,但确实提供证据计算方法有时在实践中节省显著时间量。

天气预测

2030年AI发展预测:计算扩展与科学研发影响-AI.x社区

天气预测AI的关键里程碑时间线,以及未来预期发展。

AI天气预测已能在从小时到周的天气预测任务上改进传统方法。而且,AI方法运行成本有效,并且可以用仔细收集更多数据进一步改进。下一个大挑战在于改进现有预测、预测更稀有事件、潜在预测更远,以及使用改进预测在更广泛世界中实现益处。

用于天气预测的现有AI基准大多显示AI在小时到数十天视野上与最先进数值模型集合相当或更好(Rasp et al. 2024)。对于关键变量如温度、压力、风和降水的预测,AI方法可以优于10-30%(Price et al. 2024)。此类系统在历史天气数据集上训练,但这些反过来依赖数值天气模型,因此在重要意义上AI方法增强数值模型而不是完全替换它们。

不清楚点预测的进一步准确改进能超出数值基线实现什么,虽然研究者建议它们将持续,除了在其他数据上微调的可能性(Price et al. 2024)。或许更重要,研究者预期在其他关键领域进一步改进,如更好校准概率模型,特别是对于稀有天气事件如飓风。

AI将如何到2030年影响天气预测研发?我们焦点于窄天气预测AI,虽然大概将有类似于前节讨论的通用研究代理的进展。数值天气预测研究无疑将持续,既作为直接预测工具也作为AI增强的基础。潜在,由AI系统学习的经验发现可能引导研究者向重要新效果建模。然而,也似乎很可能领域将看到经验研究的蓬勃:数据收集、整合新数据来源到模型,以及验证其性能。收集后,这研究很可能相对民主化:AI天气预测模型一般比数值方法实验便宜。

改进天气预测的大多数明显挑战围绕数据。现有数据不总是容易可用,并且收集延迟可能适合研发但不适合实时部署。许多提议数据来源尚未系统收集,或不公开可用(Bouallègue et al. 2024)。系统数据收集将面临可预测瓶颈:资金、机构协调,以及在一些情况下甚至安装数据记录设备的许可。

假设这些挑战被满足,AI有通过天气预测实现显著真实世界影响的可能性。已,研究在探索极端天气如风暴、洪水和干旱的预测如何改进社会响应(Camps-Valls et al. 2025; Cohen 2024)。此外,像云覆盖、湿度以及降雨这样的现象的日常预测可以影响电力基础设施、农业、运输以及其他领域的关键决策(Talbott 2022; Google Research, n.d.-b)。这些应用有显著经济价值:例如,飓风预测的改进已被估计在2007和2020年间在美国节省700亿美元(Molina and Rudik 2024)。针对大众和企业的现有英国天气预测每个已被估值约数百亿美元(Herr et al. 2024),表明全球价值可能达到数千亿美元。

到2030年,理论上能力将存在以用更准确、更好校准、更频繁更新的天气预测丰富天气预测系统。弄清楚如何利用此类预测的挑战正在进行,但即使悲观,现有决策过程将受益。 

讨论与结论

我们已考察驱动AI开发的趋势,以及这些到2030年如何很可能展开。我们论证训练和推理计算的持续扩展使前进路径有些可预测,只要它保持改进下游能力。在大多数情况下,当前趋势很可能持续到2030年。最大AI模型将成本数千亿美元,并使用约当今领先模型计算量的1000倍。这值得如果它们可以通过增加生产力生成万亿美元经济价值,这似乎合理,鉴于AI能力进展。

我们也考察AI如何到2030年加速科学研发的部分。特别是,我们已看相对引人注目证据的领域:有相关基准的任务,并且我们可以显示AI在轨道上扩展到高性能水平。这些预测有附带条件,但它们提供关于未来AI将能够执行的任务的清晰证据。AI将以两种方式帮助科学研发:用于特定高价值任务如生物分子预测的专用工具,以及用于研究任务如文献审查的通用代理。迄今证据对于前者最强,那里现有AI工具已在几个研发领域帮助。同时,通用代理在看到活跃开发,并且已以早期形式存在,但有较少证据迄今它们多帮助。

我们未考察与变革技术伴随的风险。在本工作预测的2030年中,有明显滥用潜力:我们讨论的许多科学研发能力有双重使用潜力如网络攻击或创建生物武器。相对自主代理的前景,能够在更广泛世界中追求目标,甚至进一步复杂这画面。在开发先进AI的冲刺中也有更广泛社会风险,从劳动力市场破坏到环境。为建立足够电力和制造专用AI硬件的驱动力可能导致加剧政治紧张和显著环境影响。我们考察如何,取决于能源基础设施,即使大规模AI扩展可能导致相对小碳排放。然而,与其他风险一样,这需要关于如何开发AI、如何控制其使用,以及如何缓解其危害的社会选择。

也有关于如何使能AI开发的重要选择。对于开发中的许多关键趋势,决策如资金或监管至关重要。一个重要例子是电力。如果未来AI训练运行需要吉瓦级电力,接近整个大城市需求,那么基础设施的监管和投资将有重要含义于哪里(以及多容易)大规模AI训练可以发生。类似,监管可能对经济中自动化可以发生哪里有大效果,并可能导致不同司法管辖区AI部署的大差异。我们对此类监管应采取什么形式不持立场,但它将清楚重要,并可能甚至转变AI开发的轨迹,好或坏。

到2030年,AI很可能成为经济跨关键技术,存在于人们与计算机和移动设备交互的每个方面。较少确定,但合理,AI代理可能作为许多的虚拟同事,通过自动化转变他们的工作。如果这些预测实现,那么关键决策者在导航未来五年及以后时优先AI问题是至关重要的。

参考资料:Epoch AI. (2025). AI in 2030: Extrapolating Current Trends. (Commissioned by Google DeepMind). https://epoch.ai/files/AI_2030.pdf

本文转载自​Andy730​,作者:常华

已于2025-10-11 06:40:27修改
收藏
回复
举报
回复
相关推荐