
Transformer之父曝AGI下一步!大模型不再拼参数,三大硬件成关键 原创
当整个行业都在比拼千亿参数模型时,大模型真正需要的可能不是更大的规模。在硅谷举行的 Hot Chips 2025 首日主题演讲上,Transformer 发明者之一、谷歌 Gemini 联合负责人 Noam Shazeer 给出了不一样的答案。
作为谷歌Gemini的联合负责人,Noam Shazeer认为语言建模是"有史以来最好的问题",但他指出大模型真正需要的是三大硬件支撑:更高的计算能力、更大的内存容量和带宽,以及更快的网络带宽。
很多人不知道,2015 年时在 32 个 GPU 上训练模型就已经是重大成就,而现在训练先进模型则需要数十万个 GPU 协同工作。Shazeer 在演讲中展示的这组数据,直观呈现了大模型算力需求的爆炸式增长。
但他话锋一转指出,单纯堆砌硬件规模就像给赛车不断加装引擎却不优化传动系统,真正的效率提升来自对每一份计算资源的精细利用。这解释了为什么他创办的 Character.ai 能将推理成本降低到原来的 1/33,而如果用市场上最好的商业 API 支撑同等流量,成本会高出 13.5 倍。
这位曾因谷歌拒绝发布其聊天机器人成果而离职创业,最终又以 27 亿美元合作价回归谷歌的 AI 老兵,用十年行业经验揭示了一个被忽视的真相:大模型的下一站突破,藏在硬件与软件的协同进化里。
在 Character.ai 的实践中,Shazeer 团队将 Transformer 架构的 KV 缓存大小减少了 20 倍以上。他们全面采用 Shazeer 本人 2019 年提出的 MQA 架构,相比常见的 GQA 架构直接减少 8 倍缓存,再通过跨层 KV 共享技术进一步压缩 2-3 倍显存占用。
更巧妙的是他们设计的注意力状态缓存机制,让 95% 的对话请求无需重新计算,这种工程智慧比单纯增大模型规模更能解决实际问题。就像他在演讲中回忆的,早期 Transformer 原型性能并不优于 LSTM,是他移除了冗余的卷积模块,才让这个架构真正发挥威力。
Shazeer 在演讲中系统阐述了大模型对硬件的三大核心需求。
首先是更多算力,数以千万亿次的浮点运算能力直接决定模型规模和训练效率。
但他特别强调内存带宽的重要性,带宽不足会限制模型结构灵活性,就像狭窄的高速公路会让再多车辆也无法快速通行。
在 Character.ai 的生产模型中,每 6 层只有 1 层使用全局注意力,其余都采用滑动窗口的局部注意力,这种设计将计算复杂度从平方级降至线性,却不影响核心性能。
容易被忽视的网络带宽同样关键。当模型分布在多块芯片上时,长思维链推理需要快速访问所有参数,这时候芯片集群的整体内存带宽就成了响应速度的瓶颈。
Shazeer 团队通过混合注意力视野设计,在保证长上下文理解能力的同时,让数据传递效率提升数倍。他在演讲中笑着说,当年面试谷歌时提出的拼写校正方案比现有系统更优,这种从实际问题出发的思维方式,正是他持续优化大模型的关键。
微软亚洲研究院的最新研究也印证了这一方向。他们提出的 DELT 数据组织范式,通过优化训练数据的排序策略,在不增加数据量的情况下显著提升模型性能。就像合理安排课程表能让学生学习效率更高,给模型按难度和质量排序训练数据,同样能挖掘出更大潜力。
这种数据效能提升与硬件优化形成的合力,正在重塑大模型的发展路径。
Shazeer 在演讲结尾被问到一个尖锐问题:如果硬件不再进步,还能实现 AGI 吗?他给出了肯定答案,因为软件创新和系统设计的优化仍有巨大空间。但他也补充说,更好的硬件会让这一天来得更快。
这个观点正在日常应用中逐渐显现,当我们与 AI 助手流畅对话时,背后是 KV 缓存优化带来的即时响应;当手机也能运行复杂模型时,要归功于低精度量化技术的突破。
从 Transformer 架构的极简设计到 Character.ai 的工程优化,Shazeer 的探索之路揭示了大模型真正需要的不是盲目扩张,而是对效率和协同的极致追求。
算力,仍然是 AI 下一阶段的核心需求之一。然而,当算力不再被浪费,当每一份数据都发挥价值,AI 才能真正走进生活的每个角落,这或许就是 AGI 最切实的下一步。
