OpenAI终于开源了!gpt-oss-120B对飙o4-mini,20B可手机运行 原创

发布于 2025-8-11 08:19
浏览
0收藏

8月5日,AI圈被OpenAI这记“王炸”炸懵了。

自2019年GPT-2发布以来,OpenAI首次再次开源语言模型,而且一口气放出了两个版本:gpt-oss-120B 和 gpt-oss-20B。不同于之前那种“只准调API,不准看底细”的闭源策略,这一次是真·全权开放:你可以自由下载、部署、调优,甚至在手机上跑!

这不仅仅是一次模型发布,更像是宣告了一个全新时代的到来:开源模型可以和商业巨头正面对刚了。

一、为什么这次发布值得特别关注?

众所周知,OpenAI以技术强悍、闭源保守著称。多年来,GPT-3、GPT-4都被牢牢锁在API后面,外界只能“租用”而无法“拥有”。但这一次,OpenAI破天荒地发布了Apache 2.0许可的开源模型,意味着:

  • 可商用 ✔️
  • 可本地部署 ✔️
  • 可二次训练 ✔️
  • 可完全控制推理过程 ✔️

换句话说,OpenAI把曾经的“云上神器”交到了你我手中。

二、来认识下这对新模型“兄弟”:120B 与 20B

🧠 gpt-oss-120B:桌面级“王炸”

这款体量达1170亿参数的模型,采用Mixture-of-Experts(MoE)架构,每个Token只激活5.1B参数,极大优化了性能与资源消耗的平衡。

  • 参数量:1170亿(活跃参数5.1亿/Token)
  • 性能表现:可媲美甚至超越OpenAI o4-mini
  • 推理支持:单张80GB显卡即可运行,支持链式思维(CoT)、Agent功能、结构化输出等
  • 上下文长度:高达128K Tokens,一口气读完一本书毫无压力
  • 定制能力:支持“推理力度”调节(低、中、高),平衡性能与资源

⚡实测场景:代码生成、技术写作、研究自动化,样样精通。

💡 gpt-oss-20B:移动端AI的性价比之王

别小看它“只有”210亿参数,它是目前最强可本地部署的轻量级模型之一。

  • 参数量:210亿(活跃参数3.6亿/Token)
  • 性能表现:介于o3-mini与o4-mini之间
  • 硬件需求:仅需16GB内存的笔记本就能跑,甚至支持移动端部署
  • 定位:为低延迟、私有化、离线推理场景量身打造

📱典型应用:智能助手、嵌入式设备、移动终端AI推理

三、技术细节亮点:性能猛、资源省、定制灵

两款模型都使用了MoE专家网络架构,即每次只激活部分子网络,既保留了大模型的理解力,又大幅压缩内存使用。

每个Token只激活少量专家子网,模型虽大,推理成本却小

  • 120B:128个专家,每次仅用4个
  • 20B:32个专家,每次也用4个

此外,它们还采用MXFP4量化技术,使模型更容易适配消费级设备。这项原生量化技术让模型不仅跑得快,而且占用内存小。

部分关键结构如下:

模型

层数

总参数

激活参数/Token

总专家数

每Token激活专家数

支持上下文

gpt-oss-120B

36

117B

5.1B

128

4

128k

gpt-oss-20B

24

21B

3.6B

32

4

128k

无论是多轮复杂问题(Chain-of-Thought),还是API调用、代码执行,两个模型都表现得相当成熟。甚至支持“系统消息中一句话切换推理力度”,真正实现了按需“烧脑”。

四、对开发者与企业意味着什么?

🎯 企业:AI主权时代来临

你可以将模型部署在本地集群或专有硬件上,实现:

  • 数据隐私保障
  • 合规性管理
  • 边缘计算部署

金融、医疗、法律等领域终于有了可以落地的强力开源大模型。

🛠️ 开发者:从调用到掌控的跃迁

不再受限于API调用次数、费用与封装限制,你可以:

  • 调整推理流程
  • 注入自定义指令
  • 精细化调参
  • 本地无障碍迭代

而且模型已上传至 Hugging Face 和 Ollama,部署快到起飞

五、性能实测:真打得过商用模型?

从OpenAI官方发布的Benchmark成绩看,gpt-oss系列在多个标准测试中全面碾压开源对手、追平闭源模型:

  • MMLU综合学科测试:gpt-oss-120B 达到90%准确率,接近GPT-4o。
  • 健康问答(HealthBench):gpt-oss-20B超过o4-mini,成为最强“医疗类”开源模型。
  • 数学竞赛(AIME 2025):两个模型均超过98%准确率,超越多款商用闭源模型。

这些结果说明:它不仅“开源”,还“顶级”。

其他具体评测结果如下:

📌任务名称

🧠评估维度

🏆gpt-oss-120B

🧪gpt-oss-20B

🔒OpenAI o4-mini

🔒OpenAI o3

🔒OpenAI o3-mini

Codeforces

编程竞赛

Elo 排名(越高越好)

2622

(含工具)
2463(无工具)

2516(含工具)
2230(无工具)

2706

2719

2073

Humanity's Last Exam

专家级通识问答

准确率(%)

19(含工具)
14.9(无工具)

17.3(含工具)
10.9(无工具)

24.9

17.7

13.4

HealthBench

通用健康问答

得分(%)

57.6

59.8

50.1

42.5

37.8

HealthBench Hard

复杂健康问答

得分(%)

30.0

10.8

17.5

31.6

4.0

AIME 2024

数学竞赛

准确率(%)

96.6

96.0

98.7

95.2

87.3

AIME 2025

数学竞赛

准确率(%)

97.9

98.7

99.5

98.4

86.5

GPQA Diamond

博士级科学问答(无工具)

准确率(%)

80.1

71.5

83.3

81.4

77.0

MMLU

多学科通识

准确率(%)

90.0

85.3

93.4

93.0

87.0

Tau-Bench Retail

函数调用任务

准确率(%)

67.8

54.8

70.4

65.6

OpenAI终于开源了!gpt-oss-120B对飙o4-mini,20B可手机运行-AI.x社区

OpenAI终于开源了!gpt-oss-120B对飙o4-mini,20B可手机运行-AI.x社区

OpenAI终于开源了!gpt-oss-120B对飙o4-mini,20B可手机运行-AI.x社区

六、安全机制与红队挑战:开源也得严阵以待

OpenAI非常谨慎地处理安全问题:

  • 训练阶段剔除了敏感数据(如生物化学、网络攻击等)
  • 提供三种“推理力度”以防不必要的高风险输出
  • 经过外部专家审查与对抗性微调测试,确保模型在被恶意修改后仍难以达到高能力水平

而且,OpenAI还发起了一项全球红队挑战赛,设立50万美元奖金鼓励开发者发现潜在风险,可谓诚意满满。

七、意义何在?谁将受益?

“这不是普通的模型发布,而是OpenAI向全球开发者发出的一封邀请函。”

从小型初创到跨国企业,从AI研究员到开发爱好者,每一个渴望掌控AI命运的人,都将从gpt-oss系列中受益

  • 有能力的人可精调模型,训练专属版本
  • 没有GPU的人也能运行20B版本,快速落地
  • 想用AI做产品的团队终于可以低成本、快节奏验证方案

这将重新定义“开源大模型”的底线与天花板。

尾声:这一次,OpenAI真的“开”了

曾经我们只能在远端的API中感受GPT的威力,而现在,OpenAI把这个能力交到了我们手里。 gpt-oss系列并不完美,但它们无疑是一把钥匙,一把能够打开AI“自主时代”的钥匙。


本文转载自​Halo咯咯​    作者:基咯咯

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐