
OpenAI“补课”式发布两个开放权重模型GPT-OSS | 5个技术看点 | 时隔六年多,再次拥抱开源
OpenAI终于打破了自GPT-2以来长达六年多的沉寂,再次拥抱开源社区,发布了两个全新的开放权重模型:gpt-oss-120b和gpt-oss-20b。在AI社区激起了千层浪。毕竟,上一个来自OpenAI的开源模型GPT-2,几乎以一己之力点燃了全球开发者对大语言模型的热情。
我花了点时间研究它之后(源代码和模型权重URL参考末尾附录),有点惊喜,但也有一点失望。惊喜的是,OpenAI确实兑现了承诺,并且模型在特定硬件上的高效表现令人印象深刻;失望的是,无论从模型架构的创新性还是从绝对的性能天花板来看,gpt-oss系列似乎都未能带来革命性的突破,更像是一次“补课”式的发布。
那么,应该如何全面地看待这次发布呢?我从以下五个技术看点出发,试着剖析这次备受瞩目的发布,并探讨其背后可能的技术考量与战略布局。
看点一:模型规模与性能表现
OpenAI此次发布了两个不同规模的模型,均采用Apache 2.0这一非常宽松的开源许可。
- gpt-oss-120b: 拥有1170亿(117B)总参数,但每个token在处理时仅激活51亿(5.1B)参数。
- gpt-oss-20b: 拥有210亿(21B)总参数,激活参数量为36亿(3.6B)。
官方宣称,gpt-oss-120b的性能与自家的闭源模型o4-mini不相上下。但根据最新的《Artificial Analysis智能指数》v2.2版本的独立评测,这一说法似乎有些过于乐观。在该评测中,gpt-oss-120b的得分为58分,虽然表现不俗,但明确落后于Google的Gemini 2.5 Pro(65分)、阿里的Qwen3 235B(65分),甚至还略低于DeepSeek R1(59分)。它处于一个“上游偏中”的位置,性能稳健,但远未达到开源领域的顶尖水平。这直观地印证了社区的普遍感受:gpt-oss并未在性能上带来“王者归来”般的震撼。
看点二:MoE架构的哲学——“更宽、更少、但更专”
gpt-oss系列的核心架构是“专家混合(Mixture-of-Experts, MoE)”,这在意料之中。然而,魔鬼藏在细节中。通过架构对比图【出处引用】,能清晰地看到OpenAI与开源社区另一位明星选手——阿里的Qwen3模型,在MoE设计哲学上的显著差异。
gpt-oss-20b的设计可以概括为“更宽、更少、但更专”。具体来看:
- 更宽的专家(Bigger Experts): 其每个专家网络(FeedForward/SwiGLU模块)的中间隐藏层维度(intermediate hidden dimension)达到了惊人的2,880。这是一个非常“宽”的设计,意味着每个专家内部的容量和计算复杂度都很高。
- 更少的激活专家(Fewer Experts): 它拥有32个这样的“重型专家”,但每次推理只从中挑选4个来处理输入。
- 更大的词表和嵌入维度: 拥有200K的词汇量和2,880的嵌入维度,为处理更多样的语言现象提供了基础。
相比之下,Qwen3 30B-A3B模型则采取了“更深、更多、但更巧”的策略:
- 更巧的专家(Smaller Experts): 其每个专家的中间隐藏层维度仅为768,比gpt-oss小了近4倍。这些专家更“轻量级”。
- 更多的激活专家(More Experts): 同样拥有32个专家,但Qwen3每次会激活8个,是gpt-oss的两倍。
- 更小的嵌入维度: 其嵌入维度为2048。
这两种策略代表了在稀疏模型设计十字路口上的不同方向。Qwen3的策略如同一个“轻量级专家团队”,通过激活更多小而精的专家进行“集体会诊”,依靠数量优势来弥补单个专家容量的不足,可能在泛化能力上更具优势。而gpt-oss则像是在培养少数几位“全科博士”,每一个专家都身怀绝技,路由(Router)的任务是指派少数几位最对口的“重型专家”来解决问题。
(GPT-OSS VS Qwen3 图片引自:Sebastian Raschka)
这两种设计并无绝对优劣,但它再次印证了我的观点:gpt-oss在架构上并未提出革命性的新范式,而是在一个成熟的框架内,进行了一次深思熟虑但略显保守的工程选择。它向我们展示了一种不同的MoE构建方式,但这更像是一种“配置”上的差异,而非“发明”上的突破。
看点三:注意力机制的“复古”与“微创新”
模型架构的另一个核心——注意力机制,在gpt-oss上呈现出一种“新旧融合”的有趣面貌。最引人注目是模型的配置文件中赫然出现了attention_bias: true的设置。这是一个可以追溯到GPT-2时代的“复古”设计,在当今主流的等架构(DeepSeek V3、Kimi K2、Qwen3等)中早已被弃用。这一选择的具体动机尚不明确,但无疑为模型增添了一丝神秘色彩。
除此之外,gpt-oss采用的都是些“熟面孔”技术:
- 分组查询注意力(GQA): 减小KV缓存,提升推理效率,group size为8。
- 旋转位置编码(RoPE): 当前大模型处理长序列位置信息的标配。
唯一的“微创新”可能是在GptOssAttention代码中出现的一个名为sinks的参数。这可能是用于处理注意力机制中“注意力沉陷”(Attention Sinks)现象的一种技术,旨在改善长序列推理的稳定性。总体而言,gpt-oss的注意力机制更像是一个稳定可靠的“组装车”,而非一辆拥有全新引擎的“概念车”。
看点四:极致的部署效率与MXFP4量化
如果说架构创新乏善可陈,那么gpt-oss在部署效率上的表现则堪称惊艳。这或许是本次发布最大的亮点。
OpenAI直接提供了使用MXFP4格式量化后的模型权重。 MXFP4是一种4位浮点数格式,通过为一小组(例如32个)数值共享一个缩放因子,来极大地压缩模型体积,同时尽可能保持精度。
得益于MoE架构和MXFP4量化,两个模型的部署门槛被降到了前所未有的低度:
- gpt-oss-120b的量化后大小仅为60.8GB,可以轻松运行在单张80GB显存的NVIDIA H100 GPU上。
- gpt-oss-20b更是只需12.8GB,使其能够在拥有16GB以上内存的高端消费级GPU或笔记本电脑上流畅运行。
这一点与Sam Altman在发布时所强调的“在高端笔记本上运行”相吻合。
看点五:开放的“形式”与“诚意”
最后,来谈谈这次开放本身的意义。在DeepSeek、MoonShot、阿里巴巴等公司凭借开放模型赢得满堂彩的背景下,OpenAI的这次回归显得有些姗姗来迟,甚至带有一丝“被迫营业”的意味。
一方面,采用Apache 2.0许可证无疑是充满诚意的,它为商业使用和再创作提供了最大的自由度。 这对于构建一个真正繁荣的生态系统至关重要。
但另一方面,这次发布给人的感觉更像是在履行一个“不得不兑现的承诺”。模型本身仅限文本、以英文为主,并且性能评测(如AAI指数)也证明了它虽好,却未能登顶开源榜单,这些都似乎在暗示,OpenAI仍然将最尖端的技术保留在其闭源的模o-series模型中。
结论
总而言之,OpenAI的gpt-oss双子星是一对优缺点同样鲜明的模型。它们是工程上的杰作,将稀疏架构和低比特量化技术运用到了极致,实现了惊人的运行效率,极大地降低了前沿大模型的使用门槛。对于整个AI社区来说,这无疑是一份厚礼。
然而,我并未从中看到预想中那种引领行业变革的颠覆式创新。它的架构设计更多是现有成熟技术的巧妙整合与哲学取舍,而非开创性的探索。其性能表现,正如评测数据所示,虽然稳健,但“未能超越,仅是看齐”的结果,也让那些期待OpenAI再次“一骑绝尘”的人感到些许失落。
附录
https://huggingface.co/openai/gpt-oss-120b
本文转载自后向传播,作者: 张发恩
