OpenAI GPT-OSS 120B/20B 详解:性能追平专有模型,开发者可本地微调

发布于 2025-8-8 08:07
浏览
0收藏

2025年8月5日,OpenAI取得新突破,发布了两款基于Apache 2.0许可的开放权重推理模型——GPT-OSS-120B和GPT-OSS-20B。这些模型将以往只能通过API获取的强大功能赋予了开发者、研究人员和企业,便于他们进行微调、自主部署和扩展。

什么是GPT-OSS?What is GPT-OSS?

GPT-OSS(生成式预训练Transformer开源软件,Generative Pre-trained Transformer Open Source Software)是OpenAI于2025年8月5日根据Apache 2.0许可发布的一系列开放权重语言模型。此次发布标志着OpenAI回归开源原则,效仿早期的GPT-2等模型,旨在让开发者、研究人员、企业和政府都能更广泛地使用先进的人工智能技术。该计划支持本地部署,减少对基于云的API的依赖,增强隐私保护,并支持低延迟应用程序。这些模型专为在消费级和企业级硬件上进行推理、工具使用以及高效运行而设计。

GPT-OSS系列中的两个主要模型为:

  • gpt-oss-120b:一个拥有1170亿参数的模型,针对高性能任务进行了优化。
  • gpt-oss-20b:一款拥有210亿参数的模型,专为资源受限的环境而设计。

这两种模型均可在Hugging Face等平台上免费获取,OpenAI的Cookbook及其他资源还提供了详尽的文档和部署指南。

模型架构与规格Model Architecture and Specifications

根据OpenAI的介绍中的信息,这些模型具有以下技术细节:

  1. gpt-oss-120b
  • 参数:共计1170亿个,每个词元有51亿个活跃参数。
  • 架构:具有36层和128个专家的混合专家(MoE,Mixture-of-Experts),每个词元选择前4个专家。
  • 内存要求:可在单个80GB GPU(如英伟达H100)上运行。
  • 上下文长度:131,072个词元,支持长上下文推理和复杂任务。
  • 检查点大小:60.8 GiB,量化为MXFP4格式(每个参数4.25比特)。
  1. gpt-oss-20b
  • 参数:共计210亿个,每个词元有36亿个活跃参数。
  • 架构:具有24层和32个专家的混合专家(MoE)架构,每个词元也选择前4个专家。
  • 内存要求:可在内存为16GB的设备上运行,适用于消费级硬件和边缘设备。
  • 上下文长度:131,072个词元。
  • 检查点大小:12.8 GiB,也采用MXFP4格式。

这两种模型都使用分组多查询注意力机制(分组大小为8)、旋转位置嵌入(RoPE,Rotary Positional Embedding),以及拥有201,088个词元的o200k_harmony分词器,该分词器通过OpenAI的TikToken库开源。该架构基于GPT-2和GPT-3的基于Transformer的创新技术构建,采用了2880的残差流维度和均方根归一化以确保稳定性。

混合专家(MoE)和量化技术的使用显著降低了计算需求,实现了高效推理。例如,gpt-oss-120b在性能上可与更大的模型相媲美,同时可在单个高端GPU上运行,而gpt-oss-20b则针对笔记本电脑或边缘系统等设备的轻量级部署进行了优化。

训练与数据Training and Data

GPT-OSS的训练过程涉及数万亿个词元,主要为英语,重点集中在科学、技术、工程和数学(STEM)、编码以及常识领域。训练数据的知识截止日期为2024年6月,以确保在此之前的内容具有相关性。关键训练细节包括:

  • 预训练:在英伟达H100 GPU上进行,gpt-oss-120b模型大约需要210万个H100小时。较小的gpt-oss-20b模型所需资源明显较少,不过具体数字并未明确说明。
  • 数据筛选:对有害内容(包括化学、生物、放射性和核(CBRN)数据)进行了筛选,以降低被滥用的风险。
  • 训练后:包括有监督微调以及高算力强化学习(RL),以使模型符合OpenAI的模型规范,强调道德行为以及抵御滥用的稳健性。
  • 提示格式:采用和谐聊天格式,支持系统、开发者、用户、助手和工具等角色,增强推理和工具使用能力。

Harmony格式在GitHub上有一个渲染器,它允许灵活的交互,包括通过系统提示调整推理级别(低、中、高)。

性能与基准测试Performance and Benchmarks

这些模型已经在各种基准测试中经过了严格评估,与OpenAI的o4-mini和o3-mini等专有模型相比,展现出了具有竞争力的性能。以下是OpenAI文档中关键基准测试结果的总结:

OpenAI GPT-OSS 120B/20B 详解:性能追平专有模型,开发者可本地微调-AI.x社区

主要观察结果

  • gpt-oss-120b在诸如GPQA钻石和MMLU等推理任务中与o4-mini几乎不相上下,在竞赛数学(美国数学邀请赛AIME)和编码(SWE-Bench、Codeforces)方面表现出色。
  • gpt-oss-20b的表现与o3-mini相当,尽管规模较小,但在数学和编码方面表现出色,适合资源受限的环境。
  • 两种模型都支持可调节的推理级别,测试时缩放显示,随着思维链(CoT,Chain-of-Thought)输出变长,准确率呈对数线性提升,尽管这会增加延迟。

部署与可访问性Deployment and Accessibility

正如在OpenAI的介绍和微软的博客中所详述的,GPT-OSS旨在实现广泛的可访问性和灵活的部署:

  • 可用性:模型可在Hugging Face上免费获取,带有MXFP4格式的量化权重,以实现高效推理。可通过gpt-oss.com访问测试平台。
  • 本地部署:由Ollama、vLLM和LM Studio等工具支持,并提供针对PyTorch、Apple Metal和NVIDIA GPU的参考实现。

微软集成

  • Azure AI Foundry:提供一个用于微调与部署GPT-OSS模型的平台,具备内置安全工具,以及面向医疗、金融和零售等行业的企业级支持。
  • Windows AI Foundry:通过ONNX Runtime和Foundry Local针对Windows设备优化GPT-oss-20b,实现笔记本电脑和工作站等消费级硬件上的高性能推理。
  • Azure AI Studio和GitHub模型:开发人员可以通过这些平台访问GPT-OSS进行试验和部署,利用微软的基础设施实现可扩展性。
  • AWS支持:可在AWS SageMaker JumpStart上进行基于云的部署。
  • 指南与工具:OpenAI的Cookbook提供了关于设置、微调以及与LangChain和LlamaIndex等工具集成的全面指南。

这些模型支持智能体工作流的结构化输出,使其适用于需要精确JSON输出的应用场景,如API集成或自动化工作流。

安全与伦理考量Safety and Ethical Considerations

OpenAI在GPT-OSS发布中优先考虑了安全性,以解决人们对开放权重模型可能被滥用的担忧:

OpenAI GPT-OSS 120B/20B 详解:性能追平专有模型,开发者可本地微调-AI.x社区

  • 预训练安全性:从训练数据中过滤与化学、生物、辐射和核(CBRN)相关的内容,以防止有害应用。
  • 训练后对齐:采用审慎对齐、拒绝指令的层次结构以及越狱鲁棒性训练,以OpenAI的模型规范为指导。
  • 对抗性测试:在准备框架下进行,模拟恶意微调场景。结果表明,gpt-oss-120b未达到造成危害的高能力阈值,详情见OpenAI的安全报告。
  • 外部合作:邀请了METR和SecureBio等专家,实施了22条安全建议中的11条,包括协议调试数据和明确假设。
  • 红队测试:在Kaggle上发起了一项50万美元的红队测试挑战赛,以识别漏洞,数据集和报告将开源。

安全性能指标显示,gpt-oss-120b在处理非法/非暴力内容方面表现优于o4-mini(0.692对0.658),但在指令层级(0.832对0.993)和幻觉率(0.168对0.234)方面落后。OpenAI建议不要将这些模型用于医疗诊断或治疗,并建议向用户隐瞒思维链(CoT)输出,以防止他们接触到潜在有害内容。

本文转载自​AIGC深一度,作者:一度​​

收藏
回复
举报
回复
相关推荐