鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

OpenAI终于开源了！gpt-oss-120B对飙o4-mini，20B可手机运行原创

发布于 2025-8-11 08:19

浏览

0收藏

8月5日，AI圈被OpenAI这记“王炸”炸懵了。

自2019年GPT-2发布以来，OpenAI首次再次开源语言模型，而且一口气放出了两个版本：gpt-oss-120B 和 gpt-oss-20B。不同于之前那种“只准调API，不准看底细”的闭源策略，这一次是真·全权开放：你可以自由下载、部署、调优，甚至在手机上跑！

这不仅仅是一次模型发布，更像是宣告了一个全新时代的到来：开源模型可以和商业巨头正面对刚了。

一、为什么这次发布值得特别关注？

众所周知，OpenAI以技术强悍、闭源保守著称。多年来，GPT-3、GPT-4都被牢牢锁在API后面，外界只能“租用”而无法“拥有”。但这一次，OpenAI破天荒地发布了Apache 2.0许可的开源模型，意味着：

可商用 ✔️
可本地部署 ✔️
可二次训练 ✔️
可完全控制推理过程 ✔️

换句话说，OpenAI把曾经的“云上神器”交到了你我手中。

二、来认识下这对新模型“兄弟”：120B 与 20B

🧠 gpt-oss-120B：桌面级“王炸”

这款体量达1170亿参数的模型，采用Mixture-of-Experts（MoE）架构，每个Token只激活5.1B参数，极大优化了性能与资源消耗的平衡。

参数量：1170亿（活跃参数5.1亿/Token）
性能表现：可媲美甚至超越OpenAI o4-mini
推理支持：单张80GB显卡即可运行，支持链式思维（CoT）、Agent功能、结构化输出等
上下文长度：高达128K Tokens，一口气读完一本书毫无压力
定制能力：支持“推理力度”调节（低、中、高），平衡性能与资源

⚡实测场景：代码生成、技术写作、研究自动化，样样精通。

💡 gpt-oss-20B：移动端AI的性价比之王

别小看它“只有”210亿参数，它是目前最强可本地部署的轻量级模型之一。

参数量：210亿（活跃参数3.6亿/Token）
性能表现：介于o3-mini与o4-mini之间
硬件需求：仅需16GB内存的笔记本就能跑，甚至支持移动端部署
定位：为低延迟、私有化、离线推理场景量身打造

📱典型应用：智能助手、嵌入式设备、移动终端AI推理

三、技术细节亮点：性能猛、资源省、定制灵

两款模型都使用了MoE专家网络架构，即每次只激活部分子网络，既保留了大模型的理解力，又大幅压缩内存使用。

每个Token只激活少量专家子网，模型虽大，推理成本却小。

120B：128个专家，每次仅用4个
20B：32个专家，每次也用4个

此外，它们还采用MXFP4量化技术，使模型更容易适配消费级设备。这项原生量化技术让模型不仅跑得快，而且占用内存小。

部分关键结构如下：

模型	层数	总参数	激活参数/Token	总专家数	每Token激活专家数	支持上下文
gpt-oss-120B	36	117B	5.1B	128	4	128k
gpt-oss-20B	24	21B	3.6B	32	4	128k

无论是多轮复杂问题（Chain-of-Thought），还是API调用、代码执行，两个模型都表现得相当成熟。甚至支持“系统消息中一句话切换推理力度”，真正实现了按需“烧脑”。

四、对开发者与企业意味着什么？

🎯 企业：AI主权时代来临

你可以将模型部署在本地集群或专有硬件上，实现：

数据隐私保障
合规性管理
边缘计算部署

金融、医疗、法律等领域终于有了可以落地的强力开源大模型。

🛠️ 开发者：从调用到掌控的跃迁

不再受限于API调用次数、费用与封装限制，你可以：

调整推理流程
注入自定义指令
精细化调参
本地无障碍迭代

而且模型已上传至 Hugging Face 和 Ollama，部署快到起飞。

五、性能实测：真打得过商用模型？

从OpenAI官方发布的Benchmark成绩看，gpt-oss系列在多个标准测试中全面碾压开源对手、追平闭源模型：

MMLU综合学科测试：gpt-oss-120B 达到90%准确率，接近GPT-4o。
健康问答（HealthBench）：gpt-oss-20B超过o4-mini，成为最强“医疗类”开源模型。
数学竞赛（AIME 2025）：两个模型均超过98%准确率，超越多款商用闭源模型。

这些结果说明：它不仅“开源”，还“顶级”。

其他具体评测结果如下：

📌任务名称	🧠评估维度	🏆gpt-oss-120B	🧪gpt-oss-20B	🔒OpenAI o4-mini	🔒OpenAI o3	🔒OpenAI o3-mini
Codeforces 编程竞赛	Elo 排名（越高越好）	2622 （含工具） 2463（无工具）	2516（含工具） 2230（无工具）	2706	2719	2073
Humanity's Last Exam 专家级通识问答	准确率（%）	19（含工具） 14.9（无工具）	17.3（含工具） 10.9（无工具）	24.9	17.7	13.4
HealthBench 通用健康问答	得分（%）	57.6	59.8	50.1	42.5	37.8
HealthBench Hard 复杂健康问答	得分（%）	30.0	10.8	17.5	31.6	4.0
AIME 2024 数学竞赛	准确率（%）	96.6	96.0	98.7	95.2	87.3
AIME 2025 数学竞赛	准确率（%）	97.9	98.7	99.5	98.4	86.5
GPQA Diamond 博士级科学问答（无工具）	准确率（%）	80.1	71.5	83.3	81.4	77.0
MMLU 多学科通识	准确率（%）	90.0	85.3	93.4	93.0	87.0
Tau-Bench Retail 函数调用任务	准确率（%）	67.8	54.8	70.4	65.6	–

OpenAI终于开源了！gpt-oss-120B对飙o4-mini，20B可手机运行-AI.x社区

OpenAI终于开源了！gpt-oss-120B对飙o4-mini，20B可手机运行-AI.x社区

OpenAI终于开源了！gpt-oss-120B对飙o4-mini，20B可手机运行-AI.x社区

六、安全机制与红队挑战：开源也得严阵以待

OpenAI非常谨慎地处理安全问题：

训练阶段剔除了敏感数据（如生物化学、网络攻击等）
提供三种“推理力度”以防不必要的高风险输出
经过外部专家审查与对抗性微调测试，确保模型在被恶意修改后仍难以达到高能力水平

而且，OpenAI还发起了一项全球红队挑战赛，设立50万美元奖金鼓励开发者发现潜在风险，可谓诚意满满。

七、意义何在？谁将受益？

“这不是普通的模型发布，而是OpenAI向全球开发者发出的一封邀请函。”

从小型初创到跨国企业，从AI研究员到开发爱好者，每一个渴望掌控AI命运的人，都将从gpt-oss系列中受益：

有能力的人可精调模型，训练专属版本
没有GPU的人也能运行20B版本，快速落地
想用AI做产品的团队终于可以低成本、快节奏验证方案

这将重新定义“开源大模型”的底线与天花板。

尾声：这一次，OpenAI真的“开”了

曾经我们只能在远端的API中感受GPT的威力，而现在，OpenAI把这个能力交到了我们手里。 gpt-oss系列并不完美，但它们无疑是一把钥匙，一把能够打开AI“自主时代”的钥匙。

本文转载自Halo咯咯作者：基咯咯

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

开源大模型

赞

收藏

回复

举报

回复

相关推荐

Mistral开源8X22B大模型，OpenAI更新GPT-4 Turbo视觉，都在欺负谷歌

轻薄滴假象 • 3444浏览 • 0回复
AutoCoder：性能超越GPT-4o的模型，居然只有33B，还是开源！

大语言模型论文跟踪 • 8940浏览 • 0回复
对标GPT-4o！不锁区、支持手机、免费使用，Moshi来啦！

Aceryt • 3797浏览 • 0回复
终于来了，OpenAI测试GPT-4o高级语音模式！

Aceryt • 3207浏览 • 0回复
开发者终于可以定制自己的GPT-4o了！

51CTO技术栈 • 3558浏览 • 0回复
Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）

老蛀虫 • 6728浏览 • 0回复
8B参数媲美GPT-4o mini | 英伟达&MIT等发布NVILA：前沿高效

angel • 4611浏览 • 0回复
微软：GPT-4o-mini只有8B，o1-mini仅100B

PaperAgent • 2959浏览 • 0回复
微软开源最强小模型Phi-4，超GPT-4o、可商用

Aceryt • 3282浏览 • 0回复
DeepSeek-R1-Distill-Qwen-1.5B 在某些基准测试中超越了 GPT-4o

Halo咯咯 • 1.4w浏览 • 0回复
OpenAI将开源 o3-mini，或适合手机大模型

Aceryt • 2800浏览 • 0回复
刚刚，o4-mini发布！OpenAI史上最强、最智能模型

Aceryt • 2848浏览 • 0回复
OpenAI 发布两款新 AI 推理模型 o3 与 o4-mini，图像推理及自主工具使用成最大亮点

Syrupup • 2802浏览 • 0回复
OpenAI 最强推理模型 o3 / o4-mini 震撼发布！AI 从此能“看图思考”？

AI博物院 • 2181浏览 • 0回复
OpenAI 推出o3 和 o4-mini模型

51CTO内容精选 • 2671浏览 • 0回复
OpenAI GPT-OSS 120B/20B 详解：性能追平专有模型，开发者可本地微调

柏企阅文 • 9524浏览 • 0回复
如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM？

51CTO内容精选 • 1578浏览 • 0回复
GPT-OSS 20B挑战Qwen3 30B-A3B，谁更适合你？

Halo咯咯 • 6464浏览 • 0回复
OpenAI回归开源：gpt-oss-120b和gpt-oss-20b完整指南

51CTO内容精选 • 1543浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

Grok-4-Fast：让推理更便宜、更快、更普惠的 AI 3天前发布
阿里开源 Tongyi DeepResearch：科研智能体能力首次追平 OpenAI 3天前发布

热门推荐

2025年五大本地大模型，程序员必看！ 0回复

Google 发布 TimesFM-2.5：更小、更强、更长上下文的时间序列基础模型 0回复

阿里开源 Tongyi DeepResearch：科研智能体能力首次追平 OpenAI 0回复

Qwen3-Max Preview 发布：阿里带来首个万亿参数大模型，挑战长上下文极限 0回复

智能体主流框架深度研究报告：功能特性、用户群体、技术架构与商业化路径分析 0回复

上一篇： AI硬件的全面解析（CPU、GPU、NPU、TPU）

下一篇：从试错到系统化：自动化提示词优化，如何让 AI 表现更稳定？

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载