
GPT-4.5发布了,参数规模可能在3-5万亿之间,宣称是最好的聊天模型,但有“强弩之末”的感觉
2月28日OpenAI发布了GPT-4.5,OpenAI称这是其迄今为止最大的预训练模型。我有点期待GPT-4.5会带来令人振奋的突破。然而,从官方披露的信息以及实际表现来看,GPT-4.5没有展现出超越前代模型的显著优势。有点“强弩之末”的感觉。可能再次验证了业界比较广泛的认知:“单纯扩大模型参数规模,对性能提升的边际效应正在递减” 。接下来分几个章节,谈谈我的感受。
期待与现实的落差
GPT-4.5 被 OpenAI 定位为“our largest and best model for chat yet”,暗示其在规模和技术能力上的重要进展。然而,与两年前 GPT-4发布时的轰动效应相比,GPT-4.5 的亮相显得低调(奥特曼没有参加)。官方文章提到,其核心进步在于通过扩展无监督学习(unsupervised learning,可以理解为“预训练”)提升了知识广度和可靠性,但并未强调推理能力的显著增强。我认为,尽管 GPT-4.5 在某些领域(如减少幻觉)有所改进,但整体表现并未带来颠覆性的惊喜。
GPT-4.5 的技术细节与参数规模估测
OpenAI 未公开 GPT-4.5 的具体参数数量,但从其描述和行业趋势来看,我们推测一下。
- 基准参考GPT-4的参数规模据推测约为1.76万亿(https://en.wikipedia.org/wiki/GPT-4)。
- 计算资源官方文件提到GPT-4.5在Microsoft Azure AI超级计算机上训练,这表明其计算需求可能远超GPT-4。
- 模型架构假设GPT-4.5可能延续了Mixture of Experts(MoE)架构(https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/ ),MoE架构能在参数规模增加的同时优化计算效率。结合MoE模型的参数分布特点,我推测 GPT-4.5 的参数规模在3万亿至5万亿之间。
- 性能反馈验证官方数据表明,GPT-4.5在SimpleQA准确率上为62.5%,相较GPT-4o略有提升。暗示参数规模的增长未带来比例相当的性能增益,支持其规模可能在3万亿至5万亿的假设——足够大,但未达天文数字。
更大规模为何未带来耀眼表现?
GPT-4.5 的训练聚焦于扩展无监督学习,通过增加计算资源和数据量提升模型的“世界知识深度”(deeper world knowledge)。官方称其在知识问答中的幻觉率降低,且在日常查询(63.2% 胜率)和专业查询(56.8% 胜率)中优于 GPT-4o。此外,GPT-4.5 未引入显著的推理增强机制,而是强化了与人类的协作能力(如更高的“EQ”和 steerability)。这些特点表明,OpenAI 在GPT-4.5中选择了“广度优先”的发展路径,而非“深度突破”。
尽管 GPT-4.5 的参数规模可能达到 3 万亿,其性能提升却远不如预期。例如,在学术基准测试中,GPT-4.5 的 AIME 2024(数学竞赛)得分仅为 36.7%,虽高于 GPT-4o 的 9.3%,但远不及推理模型 OpenAI o1 的 87.3%。同样,在 SWE-Bench Verified(编码任务)中,GPT-4.5 的 38.0% 表现虽优于 GPT-4o(30.7%),但并未展现出压倒性优势。这种“规模大、增益小”的现象可能源于以下原因:
- 数据质量瓶颈训练数据的总量虽增加,但其中人类有效知识的比例可能不足。GPT-4.5 在SimpleQA上幻觉率降低,表明其知识记忆更准确,但推理能力未见显著增强。这可能因为数据中缺乏足够的高质量逻辑推理样本,导致模型在“记忆”上进步,却在“思考”上停滞。
- 架构效率限制我们可以用图书馆来类比Transformer架构的大模型。参数规模可以视为图书馆的书架数量。通常来说,书架越多,能容纳的书籍(知识)就越多。但当参数规模扩大到一定程度时,可能会出现效率递减的情况。这就好比,一味地扩建图书馆、增加书架,但如果新增加的书籍大多是内容重复的,或者是质量低劣、杂乱无章的,那么读者并不会因为图书馆变大了就变得更聪明——模型的输出质量也不会因此显著提升。
反过来,如果模型参数规模过小,则其知识记忆能力会相对较差。 仍然以图书馆为例:如果一个图书馆很小,书架数量有限,却要容纳海量的书籍,那么很可能只能将每本书的内容进行大幅精简,甚至只保留核心概要。这样一来,很多知识的细节就会丢失,读者也就无法获取全面、深入的信息。但是有必要说明的是,很多小模型的推理能力不差,原因是“推理”与概念体系更相关,概念体系更容易通过知识点的压缩来达到,这也是之前Ilya为什么说:Compression is Intelligence!
转向Testing Time Computing Scaling Law
面对预训练的局限,业界已经将目光转向Testing Time Computing Scaling Law,即通过推理时增加计算量提升性能。这种趋势在DeepSeekmR1, OpenAI的o1/o3,Qwen QwQ等模型中已有体现,它们通过更长的思维链推理(chain-of-thought)显著提高了复杂任务的解决能力。
