
Google公开与Gemini大模型聊一次耗能 ≈ 电视播放9秒 或 微波炉运行1秒 | 且看他怎么算的
大模型在服务时的能源消耗一直备受关注,但具体的能耗数据,尤其是来自头部公司的数据,长期处于未知状态。这两天,Google发布了一篇研究论文,首次系统性地披露了其Gemini大模型在真实生产环境中,与用户聊一次(也就是响应一次用户提示,即常说的Prompt)的能源消耗——约0.24瓦时 (Wh) 。
为了让这个数字更具实感,论文将其与日常活动进行了对比:这大致相当于一台现代电视机播放9秒,或是一台家用微波炉运行1秒所消耗的电能,或是人类大脑思考43秒(人类大脑的平均功率约为20瓦)。此外,完成这次响应还需间接消耗约0.26毫升的水,形象地说,大约是5滴水。
这个数值显著低于许多早期的第三方估算,引发了业界的广泛讨论。那么,Google是如何精确计算出这个数字的?
解构0.24瓦时:全面衡量AI服务的真实能耗
要准确评估大模型的能耗,仅仅关注AI加速芯片(如GPU或TPU)是远远不够的。Google此次采用了一种“综合测量方法” (Comprehensive Approach),旨在覆盖大模型服务全链条中的所有关键能耗环节,从而提供一个更完整、更真实的能耗视图。值得注意的是,该数值代表的是响应一个“典型”提示的能耗。为避免被少数极度复杂的提示拉高数据,Google计算的是所有提示能耗排序后的“中位数”,而非简单的算术平均值。这使得0.24瓦时这个数字更具代表性。
一次Gemini响应的0.24瓦时能耗,主要由以下四个部分构成:
- 活跃AI加速器 (占58%, 约0.14 Wh) :这是能耗的核心部分,即专门用于模型推理计算的硬件(如Google的TPU)在工作时消耗的能量。这是驱动AI“思考”的直接能源开销。
- 活跃CPU与内存 (占24%, 约0.06 Wh) :AI加速器需要主机CPU和DRAM内存的协同工作,以完成任务调度、数据传输等功能。这部分是保障AI系统稳定运行不可或缺的支撑能耗。
- 闲置机器资源 (占10%, 约0.02 Wh) :为了保证全球用户能够随时获得快速、可靠的服务,必须预留一部分服务器处于待命状态。这些“闲置”资源虽然未在执行计算,但其基础待机功耗是维持服务高可用性的必要成本。
- 数据中心基础设施开销 (占8%, 约0.02 Wh) :这部分能耗来自于维持数据中心运行的庞大基础设施,主要是指用于服务器散热的冷却系统,以及电力在传输和转换过程中的损耗。这也是AI服务会消耗水资源的主要原因。
通过将这四个部分系统性地纳入考量,Google得以描绘出AI服务在真实世界中的完整能源足迹。
惊人的效率提升与未来展望
该研究报告最具启发性的发现,并非仅仅是当前的能耗数字,而是AI能效优化的惊人速度。
报告数据显示,通过在模型架构、算法、软硬件协同设计以及数据中心运营效率等方面的持续优化,从2024年5月到2025年5月的短短一年间,Gemini单次响应的平均能耗降低了33倍,相应的碳足迹减少了44倍。
这一成果源于系统性的工程努力,包括但不限于:构建更高效的Transformer模型架构、应用先进的量化算法、设计专为AI负载优化的TPU芯片,以及部署行业领先的超高效率数据中心。
这清晰地表明,当前公布的0.24瓦时能耗,仅仅是技术发展途中的一个动态快照。AI的能源效率正沿着一条非常陡峭的曲线持续改进。随着未来更先进的模型、功耗更低的硬件和更绿色的能源策略被不断应用,AI服务的单次能耗仍有巨大的优化空间。
附录
本文转载自后向传播,作者: 张发恩
