
图解GPT-OSS:架构、消息格式与推理机制等
OpenAI 发布了 GPT-OSS,这是他们六年来第一个开源的大语言模型。自 GPT-2 以来,LLM 的能力确实有了巨大的飞跃,但这个模型本身相比 DeepSeek、通义千问等开源模型,并没有带来特别的性能惊喜。
真正有意思的,是 OpenAI 通过这次发布展现出的一些设计思路。Jay Alammar新发布的《The Illustrated GPT-OSS》用信息图对其做了拆解分析。我们来看看都讲了什么。
架构层面没什么新鲜事
GPT-OSS 延续了自回归 Transformer 的经典架构,逐个生成 token。
相比 GPT-2 的主要升级是采用了混合专家(MoE)架构,但这在当前开源模型中已是标配。
消息格式的巧思
比架构更值得关注的是 GPT-OSS 的消息格式设计。
这个模型引入了"频道"(Channel)概念,将输出分为三类:
- Analysis- 用于推理过程
- Commentary- 用于工具调用
- Final- 最终回答
这种设计让开发者可以更精确地控制向用户展示什么。你可以选择只显示最终答案,或者让用户看到完整的推理过程。
这个设计思路其实挺实用的。很多时候用户并不需要看到模型的"内心独白",但开发者需要这些信息来调试和优化应用。
可调节的推理模式
GPT-OSS 支持三档推理强度:低、中、高。这不是什么新概念,但实现得比较优雅。
测试显示,中档和高档模式在复杂数学题上都能给出正确答案,但高档模式耗费的计算时间是两倍。这就是典型的精度与效率权衡。
推理模式对比
这种设计在实际应用中很有价值。比如做 Agent 任务时,每一步都用高强度推理可能太慢;但做离线分析时,速度就不那么重要了。
Tokenizer 的小进步
GPT-OSS 的分词器与 GPT-4 的相似,但在非英文 token 处理上稍微更高效。emoji符号和中文字符都用两个 token 而非三个,阿拉伯文字段被组合成单个 token 而不是字母。
代码和数字的 token 化基本相同,三位数以内的数字分配单个 token,更大的数字会拆分。
虽然分词器在这方面可能更好,但模型主要在英文数据上训练,所以这个改进更多是理论意义。
原文:https://newsletter.languagemodels.co/p/the-illustrated-gpt-oss
本文转载自AI工程化,作者:ully
