如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM？原创

发布于 2025-8-13 07:22

浏览

0收藏

你只需要24GB 的内存，除非你的GPU自带VRAM，否则需要相当的耐心。

上周，OpenAI发布了两款流行的开放权重模型，均名为gpt-oss。由于你可以下载它们，因此可以在本地运行。

轻量版模型gpt-oss-20b有210亿个参数，需要大约16GB的可用内存。较大版模型 gpt-oss-120b有1170亿个参数，需要80GB的内存才能运行。相比之下，像DeepSeek R1这样的前沿模型拥有6710亿个参数，需要大约875GB的内存才能运行，因此LLM开发者及合作伙伴正在尽快构建大型数据中心。

除非你运行的是高端AI服务器，否则可能无法在家用系统上部署gpt-oss-120b，但许多人拥有运行gpt-oss-20b所需的内存。你的计算机需要至少配备16GB专用VRAM的GPU，或者24GB 或更多的系统内存（至少留出8GB供操作系统和软件使用）。性能将在很大程度上取决于内存带宽，因此配备GDDR7或GDDR6X内存（1000+ GB/s）的显卡其性能将远胜过普通笔记本电脑或台式机的DDR4或DDR5（20 - 100 GB/s）。

下面，我们将讲解如何在Windows、Linux和macOS上免费使用这款新的语言模型。我们将使用Ollama，这个免费的客户端应用程序使得下载和运行该LLM变得轻而易举。

如何在Windows上运行gpt-oss-20b？

在Windows上运行新的LLM很简单。为此，先下载并安装Windows版Ollama。

打开Ollama 后，你会看到一个标记为“发送消息”的字段，右下角会显示一个可用模型的下拉列表，使用gpt-oss:20b作为默认模型。你可以选择另外的模型，但不妨使用这个模型。

输入任意提示。我先输入“Write a letter”（写一封信），Ollama开始下载12.4GB的模型数据。下载速度并不快。

如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM？-AI.x社区

图1. 下载模型

下载完成后，你可以根据需要为gpt-oss-20b输入提示，然后点击箭头按钮提交请求。

如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM？-AI.x社区

图2. 输入提示

如果你介意使用GUI，也可以从命令提示符运行Ollama。我建议这么做，因为CLI 提供了“详细模式”，可以提供性能统计信息，比如完成查询所需的时间。

要从命令提示符运行Ollama，请先输入：

ollama run gpt-oss

（如果这是你第一次运行此命令，它需要从互联网下载模型。）然后，在命令提示符下输入：

/set verbose

最后，输入你的提示。

如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM？-AI.x社区

图3. 从命令行使用 Ollama

如何在Linux上运行gpt-oss-20b？

如果你尚未使用Linux 终端，请先启动终端。然后在命令提示符下输入以下命令：

curl -fsSL https://ollama.com/install.sh | sh

然后，你需要等待软件下载并安装。

如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM？-AI.x社区

图4. 在Linux上安装 Ollama

然后输入以下命令启动 Ollama，使用gpt-oss:20b作为模型。

ollama run gpt-oss

你的系统需要下载大约13GB的数据，然后你才能输入第一个提示。

如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM？-AI.x社区

图5. 在Linux 上运行Ollama

我建议通过输入以下命令打开详细模式：

/set verbose

然后输入你的提示。

如何在Mac上运行gpt-oss-20b？

如果你使用现代Mac（M1 或更高版本），运行gpt-oss-20b就像在Windows上运行一样简单。先下载并运行macOS版本的Ollama安装程序。

如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM？-AI.x社区

图6. 在macOS上安装 Ollama

启动Ollama，确保所选择的模型是gpt-oss:20b。

如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM？-AI.x社区

图7. 在macOS上启动Ollama

现在输入你的提示，点击向上箭头按钮，就可以上手了。

gpt-oss-20b 的性能：预期结果

为了了解gpt-oss-20b在本地计算机上的性能表现，我们在三台不同的设备上测试了两个不同的提示。首先，我们要求gpt-oss-20b“Write a fan letter to Taylor Swift, telling her how much I love her songs”（写一封信给Taylor Swift，告诉她我有多喜欢她的歌曲），然后给出简单得多的提示“Who was the first president of the US?”（谁是美国第一任总统？）。

我们使用以下硬件测试了这些提示：

联想ThinkPad X1 Carbon笔记本电脑，搭载酷睿Ultra 7-165U CPU和64GB LPDDR5x-6400 RAM。
苹果MacBook Pro，搭载M1 Max CPU和32GB LPDDR5x-6400 RAM。
自己搭建的PC，搭载独立英伟达RTX 6000 Ada GPU、AMD Ryzen 9 5900X CPU和128GB DDR4-3200 RAM。

在ThinkPad X1 Carbon上，性能很差，主要是由于Ollama没有充分利用其集成显卡或神经处理单元（NPU）。它花了整整10分13秒才输出一封600字长的信给Taylor Swift。与所有面向gpt-oss-20b的提示一样，系统花了一两分钟的时间在所谓“思考”的过程中展示其推理过程。之后，它会显示输出。用两句话简单地回答“谁是美国第一任总统？”用时51秒。

如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM？-AI.x社区

图8. gpt-oss-20b始终显示其思考过程

但至少我们写给Taylor的信充满了感人肺腑的歌词，比如：“Taylor，这不仅仅是歌曲，更是体现了你的真诚。你把你的伤疤变成了诗句，把你的胜利变成了合唱。”

尽管内存速度相同，但MacBook的表现远超ThinkPad，它在26秒内生成了粉丝来信，并在短短3秒内回答了第一任总统的问题。正如我们所料，搭载RTX 6000的台式机仅用6秒就写好了信，在不到半秒的时间内给出了第一任总统是乔治•华盛顿的回答。

总的来说，如果你在配备强大GPU的系统或新款Mac上运行该LLM，你将获得良好的性能。如果你使用基于英特尔或AMD处理器的笔记本电脑，搭载Ollama不支持的集成显卡，处理任务将被转移到CPU，你在输入提示后可能想去吃个午饭。或者，你可以试试LMStudio，这是另一个在PC上本地运行LLM的流行应用程序。

原文标题：How to run OpenAI's new gpt-oss-20b LLM on your computer，作者：Avram Piltch

标签

OpenAI

LLM

gpt-oss-20b