
OpenAI终于开源了!gpt-oss-120B对飙o4-mini,20B可手机运行 原创
8月5日,AI圈被OpenAI这记“王炸”炸懵了。
自2019年GPT-2发布以来,OpenAI首次再次开源语言模型,而且一口气放出了两个版本:gpt-oss-120B 和 gpt-oss-20B。不同于之前那种“只准调API,不准看底细”的闭源策略,这一次是真·全权开放:你可以自由下载、部署、调优,甚至在手机上跑!
这不仅仅是一次模型发布,更像是宣告了一个全新时代的到来:开源模型可以和商业巨头正面对刚了。
一、为什么这次发布值得特别关注?
众所周知,OpenAI以技术强悍、闭源保守著称。多年来,GPT-3、GPT-4都被牢牢锁在API后面,外界只能“租用”而无法“拥有”。但这一次,OpenAI破天荒地发布了Apache 2.0许可的开源模型,意味着:
- 可商用 ✔️
- 可本地部署 ✔️
- 可二次训练 ✔️
- 可完全控制推理过程 ✔️
换句话说,OpenAI把曾经的“云上神器”交到了你我手中。
二、来认识下这对新模型“兄弟”:120B 与 20B
🧠 gpt-oss-120B:桌面级“王炸”
这款体量达1170亿参数的模型,采用Mixture-of-Experts(MoE)架构,每个Token只激活5.1B参数,极大优化了性能与资源消耗的平衡。
- 参数量:1170亿(活跃参数5.1亿/Token)
- 性能表现:可媲美甚至超越OpenAI o4-mini
- 推理支持:单张80GB显卡即可运行,支持链式思维(CoT)、Agent功能、结构化输出等
- 上下文长度:高达128K Tokens,一口气读完一本书毫无压力
- 定制能力:支持“推理力度”调节(低、中、高),平衡性能与资源
⚡实测场景:代码生成、技术写作、研究自动化,样样精通。
💡 gpt-oss-20B:移动端AI的性价比之王
别小看它“只有”210亿参数,它是目前最强可本地部署的轻量级模型之一。
- 参数量:210亿(活跃参数3.6亿/Token)
- 性能表现:介于o3-mini与o4-mini之间
- 硬件需求:仅需16GB内存的笔记本就能跑,甚至支持移动端部署
- 定位:为低延迟、私有化、离线推理场景量身打造
📱典型应用:智能助手、嵌入式设备、移动终端AI推理
三、技术细节亮点:性能猛、资源省、定制灵
两款模型都使用了MoE专家网络架构,即每次只激活部分子网络,既保留了大模型的理解力,又大幅压缩内存使用。
每个Token只激活少量专家子网,模型虽大,推理成本却小。
- 120B:128个专家,每次仅用4个
- 20B:32个专家,每次也用4个
此外,它们还采用MXFP4量化技术,使模型更容易适配消费级设备。这项原生量化技术让模型不仅跑得快,而且占用内存小。
部分关键结构如下:
模型 | 层数 | 总参数 | 激活参数/Token | 总专家数 | 每Token激活专家数 | 支持上下文 |
gpt-oss-120B | 36 | 117B | 5.1B | 128 | 4 | 128k |
gpt-oss-20B | 24 | 21B | 3.6B | 32 | 4 | 128k |
无论是多轮复杂问题(Chain-of-Thought),还是API调用、代码执行,两个模型都表现得相当成熟。甚至支持“系统消息中一句话切换推理力度”,真正实现了按需“烧脑”。
四、对开发者与企业意味着什么?
🎯 企业:AI主权时代来临
你可以将模型部署在本地集群或专有硬件上,实现:
- 数据隐私保障
- 合规性管理
- 边缘计算部署
金融、医疗、法律等领域终于有了可以落地的强力开源大模型。
🛠️ 开发者:从调用到掌控的跃迁
不再受限于API调用次数、费用与封装限制,你可以:
- 调整推理流程
- 注入自定义指令
- 精细化调参
- 本地无障碍迭代
而且模型已上传至 Hugging Face 和 Ollama,部署快到起飞。
五、性能实测:真打得过商用模型?
从OpenAI官方发布的Benchmark成绩看,gpt-oss系列在多个标准测试中全面碾压开源对手、追平闭源模型:
- MMLU综合学科测试:gpt-oss-120B 达到90%准确率,接近GPT-4o。
- 健康问答(HealthBench):gpt-oss-20B超过o4-mini,成为最强“医疗类”开源模型。
- 数学竞赛(AIME 2025):两个模型均超过98%准确率,超越多款商用闭源模型。
这些结果说明:它不仅“开源”,还“顶级”。
其他具体评测结果如下:
📌任务名称 | 🧠评估维度 | 🏆gpt-oss-120B | 🧪gpt-oss-20B | 🔒OpenAI o4-mini | 🔒OpenAI o3 | 🔒OpenAI o3-mini |
Codeforces 编程竞赛 | Elo 排名(越高越好) | 2622 (含工具) | 2516(含工具) | 2706 | 2719 | 2073 |
Humanity's Last Exam 专家级通识问答 | 准确率(%) | 19(含工具) | 17.3(含工具) | 24.9 | 17.7 | 13.4 |
HealthBench 通用健康问答 | 得分(%) | 57.6 | 59.8 | 50.1 | 42.5 | 37.8 |
HealthBench Hard 复杂健康问答 | 得分(%) | 30.0 | 10.8 | 17.5 | 31.6 | 4.0 |
AIME 2024 数学竞赛 | 准确率(%) | 96.6 | 96.0 | 98.7 | 95.2 | 87.3 |
AIME 2025 数学竞赛 | 准确率(%) | 97.9 | 98.7 | 99.5 | 98.4 | 86.5 |
GPQA Diamond 博士级科学问答(无工具) | 准确率(%) | 80.1 | 71.5 | 83.3 | 81.4 | 77.0 |
MMLU 多学科通识 | 准确率(%) | 90.0 | 85.3 | 93.4 | 93.0 | 87.0 |
Tau-Bench Retail 函数调用任务 | 准确率(%) | 67.8 | 54.8 | 70.4 | 65.6 | – |
六、安全机制与红队挑战:开源也得严阵以待
OpenAI非常谨慎地处理安全问题:
- 训练阶段剔除了敏感数据(如生物化学、网络攻击等)
- 提供三种“推理力度”以防不必要的高风险输出
- 经过外部专家审查与对抗性微调测试,确保模型在被恶意修改后仍难以达到高能力水平
而且,OpenAI还发起了一项全球红队挑战赛,设立50万美元奖金鼓励开发者发现潜在风险,可谓诚意满满。
七、意义何在?谁将受益?
“这不是普通的模型发布,而是OpenAI向全球开发者发出的一封邀请函。”
从小型初创到跨国企业,从AI研究员到开发爱好者,每一个渴望掌控AI命运的人,都将从gpt-oss系列中受益:
- 有能力的人可精调模型,训练专属版本
- 没有GPU的人也能运行20B版本,快速落地
- 想用AI做产品的团队终于可以低成本、快节奏验证方案
这将重新定义“开源大模型”的底线与天花板。
尾声:这一次,OpenAI真的“开”了
曾经我们只能在远端的API中感受GPT的威力,而现在,OpenAI把这个能力交到了我们手里。 gpt-oss系列并不完美,但它们无疑是一把钥匙,一把能够打开AI“自主时代”的钥匙。
本文转载自Halo咯咯 作者:基咯咯
