鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

图解GPT-OSS：架构、消息格式与推理机制等

发布于 2025-8-28 06:42

浏览

0收藏

OpenAI 发布了 GPT-OSS，这是他们六年来第一个开源的大语言模型。自 GPT-2 以来，LLM 的能力确实有了巨大的飞跃，但这个模型本身相比 DeepSeek、通义千问等开源模型，并没有带来特别的性能惊喜。

真正有意思的，是 OpenAI 通过这次发布展现出的一些设计思路。Jay Alammar新发布的《The Illustrated GPT-OSS》用信息图对其做了拆解分析。我们来看看都讲了什么。

架构层面没什么新鲜事

GPT-OSS 延续了自回归 Transformer 的经典架构，逐个生成 token。

图解GPT-OSS：架构、消息格式与推理机制等-AI.x社区

相比 GPT-2 的主要升级是采用了混合专家（MoE）架构，但这在当前开源模型中已是标配。

图解GPT-OSS：架构、消息格式与推理机制等-AI.x社区

消息格式的巧思

比架构更值得关注的是 GPT-OSS 的消息格式设计。

图解GPT-OSS：架构、消息格式与推理机制等-AI.x社区

这个模型引入了"频道"（Channel）概念，将输出分为三类：

Analysis- 用于推理过程
Commentary- 用于工具调用
Final- 最终回答

这种设计让开发者可以更精确地控制向用户展示什么。你可以选择只显示最终答案，或者让用户看到完整的推理过程。

图解GPT-OSS：架构、消息格式与推理机制等-AI.x社区

这个设计思路其实挺实用的。很多时候用户并不需要看到模型的"内心独白"，但开发者需要这些信息来调试和优化应用。

可调节的推理模式

GPT-OSS 支持三档推理强度：低、中、高。这不是什么新概念，但实现得比较优雅。

测试显示，中档和高档模式在复杂数学题上都能给出正确答案，但高档模式耗费的计算时间是两倍。这就是典型的精度与效率权衡。

图解GPT-OSS：架构、消息格式与推理机制等-AI.x社区

推理模式对比

这种设计在实际应用中很有价值。比如做 Agent 任务时，每一步都用高强度推理可能太慢；但做离线分析时，速度就不那么重要了。

Tokenizer 的小进步

GPT-OSS 的分词器与 GPT-4 的相似，但在非英文 token 处理上稍微更高效。emoji符号和中文字符都用两个 token 而非三个，阿拉伯文字段被组合成单个 token 而不是字母。

代码和数字的 token 化基本相同，三位数以内的数字分配单个 token，更大的数字会拆分。

图解GPT-OSS：架构、消息格式与推理机制等-AI.x社区

虽然分词器在这方面可能更好，但模型主要在英文数据上训练，所以这个改进更多是理论意义。

原文：https://newsletter.languagemodels.co/p/the-illustrated-gpt-oss

本文转载自AI工程化，作者：ully

标签

赞

收藏

回复

举报

回复

相关推荐

好消息：GPTs 可以免费使用了！坏消息：只能使用，无法创建！

wsp_ping • 8368浏览 • 0回复
GPT-4o与SQL：大模型改变自身架构的能力有多强？

51CTO技术栈 • 3354浏览 • 0回复
LLM微调技术LoRA图解

51CTO内容精选 • 4301浏览 • 0回复
行动、变化与智能：人工智能中的推理机制

xuxiangda • 4080浏览 • 0回复
AdaBoost分类器完全图解

51CTO内容精选 • 3565浏览 • 0回复
一文图解BERT注意力机制

石映飞云 • 3834浏览 • 0回复
RAG 架构图解：从基础到高级的七种模式

sulu637 • 1.1w浏览 • 0回复
Open Notebook：开源AI笔记工具，支持多模型与多格式内容集成

穿越时空111 • 7348浏览 • 0回复
GPT-5有消息了！统一模型路线，但并不是大家认为的AGI

Syrupup • 3857浏览 • 0回复
DeepSeek全新注意力机制NSA发布，超快速长文训练与推理

PaperAgent • 4296浏览 • 0回复
GPT-4o图像生成能力全揭秘：背后竟藏自回归+扩散架构？北大&中山等开源GPT-ImgEval

angel • 3822浏览 • 0回复
记忆机制、思维模式与跨领域推理

sbf_2000 • 2051浏览 • 0回复
IT架构师必看：七牛云解析GPT-OSS的工程化之路

七牛云行业应用 • 2011浏览 • 0回复
OpenAI GPT-OSS 120B/20B 详解：性能追平专有模型，开发者可本地微调

柏企阅文 • 1.2w浏览 • 0回复
OpenAI开源GPT-OSS，AI界迎来巨变！

墨风如雪小站 • 2550浏览 • 0回复
OpenAI“补课”式发布两个开放权重模型GPT-OSS | 5个技术看点 | 时隔六年多，再次拥抱开源

后向传播 • 2068浏览 • 0回复
GPT-OSS 20B挑战Qwen3 30B-A3B，谁更适合你？

Halo咯咯 • 7684浏览 • 0回复
GPT-OSS综合评估与一些结论

大模型自然语言处理 • 3469浏览 • 0回复
OpenAI 开源模型 gpt-oss 是在合成数据上训练的吗？一些合理推测

Baihai_IDP • 1161浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

Anthropic发布Agent SDK，截胡 OpenAI 7天前发布
Pepper：开源版的 ChatGPT Pulse 7天前发布

热门推荐

阿里新一代企业级多 AI 智能体开发框架 AgentScope 技术架构全解析 0回复

代码41%由AI生成！2025七大编程工具深度对比，你的选择是？ 0回复

Qwen3-Omni-30B-A3B-Instruct 部署实战保姆及教程（图片、语音、视频全模态识别） 0回复

Cursor 1.3 ~ 1.6 版本更新全梳理：终端不再挂、Agent 更聪明、上下文更可控 0回复

阿里通义重磅开源 DeepResearch：让 AI 具备 “人类级研究能力” 的技术架构全景解析 0回复

上一篇： Google发布"Nano Banana"图像生成模型，号称全球第一

下一篇： MIT报告：花了300-400亿美元，95%的企业AI项目都失败了

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载