OpenAI前董事长采访罕见流出！曝GPT5参数规模，真正定位是连接现实世界！原创

51CTO技术栈

发布于 2025-8-18 06:22

浏览

0收藏

编辑｜云昭

出品 | 51CTO技术栈（微信号：blog51cto）

近期有关 GPT-5 的争论真的是越来越多了。

许多网友不能理解 GPT-5 被宣传的那种“瘫坐在椅子上”的那种智能程度，更不用说是 AGI 了。

那么作为第一款混合模型，究竟如何看待 GPT-5 的意义？它在 OpenAI 的战略里是怎样的定位？一时间猜测四起。

在经历了发布风暴和用户试用不及预期的争议后，奥特曼的盟友、OpenAI的联合创始人兼总裁 Greg Brockman，很少见地录制了一期播客。

当主持人很犀利地问道：

很多人在 X（推特）上发截图说 GPT-5 没那么强，但问题本身其实很简单。你为什么有信心称它是“世界上最好的编程模型”？

Brockman 解释了原因，表示：

重点不仅是提升智能水平，还要讲智能引连接现实世界应用。我们花了大量时间观察人们在互动式编程里的使用方式，把大量反馈喂回训练。这是以前没做过的。
我们看到 GPT-5 在需要深度智能的任务上远超其他模型。

这场播客还挖出了当年 Ilya 训练出 GPT-4 时的感受：为什么还不是 AGI？一如现在人们对于 GPT-5 发布后的反应。

Brockman 透露，从此后 OpenAI 就将预训练的方式开始转向强化学习的推理范式上。

有意思的是，主持人差点说漏了嘴，透露出 GPT-5 的参数规模：低双位数万亿级（小几十万亿级）。

Brockman 对于OpenAI 内部工程团队如何使用大模型开发，也颇有心得：

大部分工程师，即便非常优秀，他们的很多工作正好可以映射到模型当前的核心能力上。
对于你不熟悉的语言，你肯定不想自己写代码，而是希望模型来完成。部分工作变难，是因为模型无法直接获取必要的上下文，需要和人沟通以做出决策。

播客中，还提及了“墙钟时刻”，即不管实验是多么超前，但实验中钟表终归会与现实中的钟表对齐，进而提到了 OpenAI 是否遇到了瓶颈。

Brockman一口否认推理、预训练等这些技术上难题，直截了当地表示：算力才是 OpenAI 的瓶颈。

主持人进一步追问 OpenAI 的秘密：假如提供百倍的算力，OpenAI 会有哪些有创意的用法时，Brackman 却捂住嘴不说了。

算力如何花，花在哪儿，也是现在非常务实的一个命题，播客中有更详细的讨论。

还讨论了 AGI 时代到来后，金钱反而失去了意义。

篇幅关系这里不再过多展开了。本期播客主持人是两位创业者，分别是 Smol AI 创始人 SWYX，和 Kernel Labs 创始人 Alessio。

这里为大家奉上小编辛苦四个小时整理的播客全文，建议大家收藏细读。

疯狂发布的背后

SWYX：恭喜 GPT-5、GPT-OSS，还有最近在 open islands 上的各种新东西。我们今天都会聊到这些。很高兴你能来。上周整个就是一场疯狂的发布风暴吧，感觉如何？

Brockman：对，真的特别疯狂，在一周里发布了这么多东西。但没错，我们发布了开源模型，那些是我们筹备已久的成果，把很多 OpenAI 的最新进展压缩进一个小巧、非常易用的形态，现在已经被广泛使用了，这几天就有几百万次下载。同时我们也发布了 GPT-5，这也是我们长期研发的结果。能够把这些发布到世界上，我真的特别为团队感到骄傲。

Alessio：而且 GPT-5 是第一个混合模型，大多数人都没法自己选用哪个模型，这背后还有不少争论。

Brockman：我们会解决好这个问题。

OpenAI推理团队的由来：GPT-4训练完后，Ilya等人纳闷：为什么还不是AGI

Alessio：你当初是和 Ilya 一起创立了 OpenAI 的推理团队。能不能简单回顾一下 OpenAI 在推理上的历史？最初只是做下一词预测，后来为什么会觉得推理很重要？从那时到今天的 GPT-5，这条路是怎么走过来的？

Brockman：我会说，在训练完 GPT-4 后，我们有了一个真正能和人对话的模型。我记得第一次做后训练时，我们给它一个遵循指令的数据集，输入问题，输出标准答案。那时我们突然想到，如果再追问一个问题会怎样？结果它真的能结合前文的上下文，继续进行合理的回答。那一刻我们意识到，这东西能聊天，能利用上下文，甚至没有专门训练过也能做到。

我还记得我们开了个研究讨论会，Ilya、Jakub（现OpenAI首席科学家）、Wojciech（OpenAI创始成员）都在，大家问：为什么这还不是 AGI？这个模型显然还不是，但很难说清楚为什么。它能回答几乎所有问题，但不够可靠，会出错，会偏离轨道。那我们需要做什么才能补上这个差距？最显然的就是要让模型能在世界里验证自己的想法，能做强化学习（RL），提出假设、尝试、得到反馈，从而变得可靠。这对我们来说并不是新思路。

回溯到 2017 年，我们在做 Dota 项目时，完全是强化学习，没有依赖人类示范的行为克隆。从一个随机初始化的神经网络开始，最后能学出复杂精妙、而且正确的行为——这就是我们想要语言模型达到的可靠性。

所以在 GPT-4 训练出来的那一刻，我们就知道必须进入“推理范式”。接下来就是怎么实现的问题。我们当时有十来个假设，团队就开始努力让它变成现实。很多尝试失败了，但最终有一个方向跑通了。关键就是不断坚持，不断推进，哪怕一开始只是零星的“生命迹象”，也要慢慢把它做大。现在 Jerry 负责我们的强化学习团队，已经取得很大进展。

这里面有非常了不起的基础设施工作，比如 Wea、来自推理端的同事、还有 Felipe 等人。OpenAI 有很多人齐心协力，才真正让这一切运作起来。真的很了不起。

通向AGI的路线：离线学习转向在线学习

SWYX：我记得你之前在工程师大会上说过你很喜欢图灵的那篇论文，那也让你走上了机器学习的道路。图灵其实预见到学习机器会部分在线学习。我一直在想，从 GPT-3、GPT-4 到 GPT-5 的过程，是不是从离线学习逐渐往在线学习过渡？

Brockman：这是个很有趣的问题：学习到底发生在哪里？我觉得我们现在还没达到人类那样完整的学习闭环。人类也未必完全是“在线学习”，比如你睡觉的时候，大量的“反向传播”其实是在长期记忆里发生的。机器和人类的机制并不完全对应。但确实我们正在从“训练一次→大量推理”的模式，往“推理→再基于推理结果继续训练”的模式演变。

Ilya 常说的一句话很有道理：当模型能力不足时，它生成的一个 token 的价值很低；当模型能力极强时，它生成的每一个 token 都很有价值——那代表着经过深思熟虑的重要信息。而强化学习的特点就是：模型不断尝试、生成数据，再基于这些数据继续学习，这些尝试和现实世界接触后被筛选，反馈回模型里。这正是我们现在逐渐学会利用的地方。

而且规模需求差别巨大。预训练里十个样例没什么用，你需要几十万的样例。而在 RL 中，如果你有 10 个、100 个任务，模型能反复尝试，就能真正学到东西。人类设计这些任务的杠杆效应非常大。接下来的一步，就是让模型在使用过程中实时学习。我们还没做到，但未来还没写完。

OpenAI的瓶颈：永远是算力

Alessio：之前我们和 Nolan Brown 聊过样本效率的问题。你觉得现在的瓶颈还是在于人类要设计高质量的任务，还是说更多还是模型本身的效率问题？

Brockman：瓶颈永远是算力。

SWYX：（笑）

Brockman：我是认真的。如果你给我们更多算力，我们总能找到方法去充分利用。现在我们的 RL 算法确实比以前高效了，但还是要消耗很多算力。比如一个任务，不是尝试一次两次，而是成千上万次，才能学好。人类设计任务的价值很高，但算力的需求也随之成倍增加。

SWYX：那如果我们有 10 倍、1000 倍的算力，你觉得最有创意的用法会是什么？

Brockman：我只能说——我们一定能找到用法（笑）。

Alessio：（笑）快点满足我们吧。

Brockman：我是认真的。比如当年做 Dota，大家都觉得现有 RL 算法不可能扩展。但没人真正试过。我们去做了，每周加倍算力，结果性能就不断提升，从没遇到真正的“天花板”。很多时候遇到的“瓶颈”其实只是 bug，一旦修复，就能继续前进。所以扩展过程本身就是最有价值的探索。

算力的投入方式很多：是做更大的预训练，还是更多 RL 尝试？不管怎样，本质上就是把能量转化为算力，再转化为智能。算力像是燃料，塑造神经网络，产出一个“程序”。这个程序可以被无限次运行，远远超过了训练时的算力消耗。这是一个很美妙的范式。

Alessio：你就像把动能转化为模型里的势能。那这些“势能”是不是能继续转化回 RL 的动能，用在各个领域？比如 IMO 数学奥赛的成绩已经达到了金牌水平，你觉得类似的技巧能在别的领域也达到同样的效果吗？

Brockman：我们已经看到一些证据了。IMO 模型能拿金牌，说明这种能力确实能迁移。其实我们没有针对性地特别训练，只是几个同事顺手做了一个 IOI 编程竞赛项目，结果也达到了过去所谓“重大挑战”的水平。你会发现，学会解决困难问题本身就是一种可迁移的技能。能写数学证明，就能转移到解编程竞赛题上。

如果你从未做过物理实验，如果你从未真正尝试过把一些化学品混合在一起之类的事情，你大概不会凭空就擅长这些事。所以说在泛化的限制上，你确实需要一些真实世界的经验，去实际尝试一下。但这些模型，它们已经做到几乎不合理的程度了。我们经常看到这样的情况：一家实验室的科学家拿像 o3 这样的模型来用，比如说问它一些假设：“这是一个实验设计，我该怎么做？”模型给他们五个想法，他们尝试这五个，其中四个不行，但一个行。而我们在 o3 上得到的反馈是，这样的成果足够发表在一个中等档次的期刊上，不是顶级期刊，但中等档次的期刊，差不多就是你会期待某个三年级、四年级博士生会做出来的那种工作。

再说一次，这真是个疯狂的事实——o3 已经到这个地步了。而且我们完全清楚如何在所有维度上改进 o3。它需要算力，需要大量工作，需要明确任务，需要大量人类的智慧、爱心、劳动和时间，把心血倾注进去。但结果，正如你说的，我们造出了一个东西，它内部蕴含着巨大的“势能”。而神奇的是，这个势能并不是释放一次就完了，而是一个检查点，你可以在各种任务上反复使用。这是我认为真正能提升全人类的事情。

算力究竟怎么用？透露GPT-5参数规模：小几十万亿级

SWYX：这太鼓舞人心了。我想回到两个点。一个是关于“墙”。我之前和 Noman 辩论时，认为确实存在一堵“墙”，也就是挂钟时间（wall clock time），因为时间必须真实流逝。比如在强化学习和环境交互里，模拟的速度确实可以比真实时间快，但最终还是要跟挂钟时间对齐。所以你能看到我们逐渐收敛到那个方向——迭代空间逐渐逼近真实世界的时间。我不知道你对如何解决这个问题有什么看法。当然，我们还没到那一步。

Brockman：所以我们暂时不用担心这个问题。我觉得这是个根本性的障碍。当然，模型有一些非常不寻常的特性。你可以同时运行很多个副本，即便你无法降低延迟，你也能横向扩展。

Brockman：另一个很有趣的点是算力到底花在哪里。我们正从一个世界过渡：以前大部分算力都花在训练模型上，但随着这些模型被更多部署，更多算力会花在推理和实际使用上。进一步想想，如果这些模型未来要大量与真实世界交互，那么它们大概需要在每个动作上投入很多思考。这样可能导致每一次现实交互都要耗费大量算力。所以算力的开销分布会和以前完全不一样。而拥有高效的运行框架就显得很关键。

再比如，如果我在真实世界中执行了一堆步骤，我要如何做检查点？如果一个系统需要重启，它就会丢失当前状态——那很糟糕。所以数字世界和现实世界的差异就在这里：在数字里一切都能完美保存和检查点化，但现实是混乱而复杂的。不过我觉得这不是坏事。

我们已经见过代理在非常复杂、非常混乱的环境中也能运作，比如 Dota。算法是有这个能力的。顺便说一句，Dota 用的神经网络只有 3 亿参数，像一个微小的昆虫脑子。而现在我们开始扩展到更接近人类规模的模型了——从参数数量上看，甚至可能算力规模上也开始接近，虽然可能还不完全到位。但本质上，我们确实在朝最终目标前进。你要想象一个 AGI，它应该能以高度可预测的方式和现实世界交互。

SWYX：是的，我脑子里大概有些数，你可以纠正我是不是差了几个数量级。人类有大约 100 万亿个突触，而 GPT-4、4.5、5 在参数上大概只有个位数到低双位数的万亿级，但这些数字我们不做确认。不过差不多是这样。

Brockman：对，我们正在往那个方向扩展。是的，100 万亿突触，大概对应神经网络的权重，所以两者之间有某种等价性。我们确实开始接近正确的数量级了，可以这么说。

谈休假后影响：DNA神经网络本质是一样的，但数据很足

SWYX：关于生物学基础，我上次没机会问：你曾经在研究所休假过，我好奇那段经历对你在 OpenAI 的工作有没有影响？

Brockman：我觉得最让我惊讶的是，DNA 神经网络和普通神经网络几乎一模一样，只是把“人类语言”换成了别的东西。

SWYX：甚至词汇表更简单？

Brockman：对，就是 4 个字母。

SWYX：不过你们不会在更高层级做分词吗？

Brockman：我们当时的做法就是直接做字符级建模。

SWYX：不会吧？

Brockman：是的，为什么不呢？

SWYX：我懂，确实只有 4 个字母。

Brockman：对，这也是很有意思的一点：在人类语言里，我们理解语义和结构，能直观地感受到一个分词方案是不是合理，能否覆盖所有词。而在生物学里，它是一种外星语言。对人类来说很陌生，但对神经网络来说，人类语言和生物语言没什么本质差别。

SWYX：因为硬件是一样的。

Brockman：没错。所以一个很惊人的假设是：既然这些神经网络能学人类语言，那它们就应该能学生物语言。

而且我们确实看到了类似结果。比如我们训练了一个 400 亿参数的神经网络，用大约 13 万亿个碱基对来训练。结果感觉差不多像 GPT-1，甚至开始接近 GPT-2 的水平。也就是说，它能在很多生物学下游任务里发挥作用，但还不是 GPT-3、GPT-4，更不是 GPT-5。我们还没法解决这些领域里真正困难的问题。但我们有算力，有正确的技术和算法。接下来就是要扩展，要考虑长上下文。

生物系统给模型带来的压力和语言不太一样。比如语言序列不会存在 10 亿个 token，但 DNA 会，你有 40 亿碱基对。所以它强调的东西不同，但本质上是同一个问题。

SWYX：有没有一个你最期待的应用？比如药物研发？当然大家都会想到药物研发，但在那之前有没有更容易实现、也很有影响力的东西？

Brockman：对我个人来说，比如我的妻子，她有一种叫 Air-glass Syndrome 的遗传病。直到最近我们才开始找到可能的遗传标记，之前一直不知道原因在哪里。这类情况如果我们有更好的生物学工具，就能找出各种疾病的标记。这只是一个例子，说明这些神经网络的潜力应用。

GPT-3/4/5的旗舰特征

Alessio：你会怎么定义 GPT-5 时代的开端？如果我把 3、4、5 看作几个主要版本：GPT-3 主要是文本，GPT-4 开始多模态和低延迟长思考，那么 GPT-5 的旗舰特征是什么？大家都在说“代理元年”，但还有没有别的东西值得注意？

Brockman：我觉得智能的程度已经到了几乎难以描述的地步。当然，还是有局限，还是会出错。但在非常困难的领域里，比如看看 IMO（国际数学奥赛）的成绩，模型能写出和顶尖人类同级别的证明。在这个特定领域里还是有局限，我们还没能证明一个真正未解定理，但这已经是个事实：模型能完成非常伟大的智力工作。这就是新的突破。

GPT-4 更像是广泛适用、在商业上有用，但它提出的想法不够深刻，解决的问题也不够可靠。

我还记得在 GPT-3 的时候，我试着教它一些很基础的东西。我们发现它能通过 few-shot 提示来学任务。我想教它排序，先给它 7 个数字，它没排好。后来我写了一整套教学脚本，从两个数的排序到三个数，再到五个数。结果还是失败。而如果你问 GPT-5 排序五个数字，我敢说它一定能轻松完成，毫无问题。

顺便说，它现在也能调用 Python 工具。

Alessio：所以……

Brockman：重点是，现在模型在智力上的飞跃可以真正帮助人类。我们已经看到数学家在试用 GPT-5，物理学家也在用，甚至有人说：“这个模型重新推导出了我花了几个月才发现的见解。” 这会极大加速人类进展。我记得自己在高中和大学早期做数学研究时，要花很久思考抽象物体和它们之间的联系。如果我能有个伙伴和我一起讨论，能深刻理解并提出新的见解，那会让我进步更快，也更有乐趣。GPT-5 带来的新东西，就是能和人类一起推进智力前沿。

GPT-5是一把牛刀，杀鸡的问题测试不出来它的厉害

Alessio：你觉得人们会被问题本身的难度限制吗？比如在 Cursor 或 Codex 里，我觉得模型在面对难题时表现更好。很多人在 X（推特）上发截图说 GPT-5 没那么强，但问题本身其实很简单。你为什么有信心称它是“世界上最好的编程模型”？普通人又该怎么正确评价它呢？

Brockman：确实有些任务是饱和的。比如闲聊“你好，你好吗”，能说的就那几句。但如果你要它解一道复杂的数学题，那就能看出智力的差异。大多数任务介于这两者之间。我们看到 GPT-5 在需要深度智能的任务上远超其他模型。

其次，我们花了大量时间观察人们在互动式编程里的使用方式，把大量反馈喂回训练。这是以前没做过的。比如 o3，我们训练时只用了一些固定任务，模型在那些指标上表现很好，比如代码竞赛。但那不等于现实中的编程。现实里的编程要面对 messy 的仓库、本地状态、抽象层次、不同库的不同版本。这种多样性不是靠几个结构化任务就能出现的。

所以我们现在的重点不仅是提升智能（虽然这始终是核心），还要让智能真正连接到现实世界应用。让模型走出舒适区，走出象牙塔，去面对真实世界的复杂和多样性。

如何释放模型的潜力，自曝自己如何用GPT

Alessio：在更实际的层面上，你对如何释放这些模型的潜在能量有什么建议吗？比如部分方法是加入代码检查器、类型检查器，让任务形成自循环。开发者在使用模型时，还有没有其他元层面需要考虑的？

Brockman：我观察到的第一点是，从这些模型中提取最大价值确实是一种技能。这需要韧性——真的去理解模型能力和弱点的轮廓。你需要去测试它：先从小任务测试，获取反馈，再给它更大的任务，看看它能否按预期工作。

人们通常会有自己的提示库。我自己在 GPT-4 时代就积累了一些提示库。在 GPT-4 发布前，我会先收集一些问题，比如“它能否做到这个”。重要的是，你要选择那些有多种可能答案的问题，而不是只有一个正确答案。比如在创意写作上，我喜欢让它把《指环王》和创业主题混合在一起，看看能得到什么，这也是测试和推动模型的一种方法。

我也会考虑任务如何拆分，让模型能独立处理一个自包含的部分。你不希望只运行一个模型实例，而是希望管理多个实例——不是管理一个代理，而是管理一组代理。因此，你首先要考虑代码库结构，然后推动模型操作不同模块。我觉得很多人喜欢做前端测试，GPT-5 在前端测试上很擅长，但大部分开发者的时间不是花在这上面的，所以不能过度依赖这一点。重要的是先熟悉模型，理解它的长处和短板，把它当作自己的延伸。

另一种方式是，让模型处理一些不在关键路径上的任务，这样即使出错风险低，你也能不断获取信息，而不必等很久却得不到回报。

代理如何稳健运行？

SWYX：你一直提到，针对 Codex 和 OpenAI 的编程能力路线图，后台的代理和 IDE 代理会合并。你是如何思考这个问题的？是不是只是 IDE 调用后台 API，后台 API 输出到 IDE？还是有更深的连接？

Brockman：我通常把 AI 产品化比作同事。你希望优秀的程序员同事能做什么？你不只是想通过 Slack 找他，而是有时希望他能过来帮你看一眼，甚至帮你操作键盘。你希望它远程异步工作，又能统一拥有知识和记忆，不希望它每天都是一个忘光一切的初级程序员。AI 需要可信访问你的基础设施，并且可以审计。

这些模型可以被精细管理，而人类不喜欢被如此管理。你要求人类每步都汇报，会很快失去耐心，但模型完全可以接受。这是一个值得利用的优势。

你希望模型能无缝混合：在远程机器上工作，不影响本地状态，全沙箱、可观察，同时在必要时能本地运行。代理的身份不应该仅限于本地或远程，它可以跨多台机器运行。

SWYX：软件代理可以无缝移动。提到审批，让我想起我朋友 Fuad，他在启动代理稳健性团队，也负责启动工程。

Brockman：我们考虑代理稳健性时采用纵深防御。模型本身有一层，比如指令层次（instruction hierarchy），区分系统、开发者、用户消息，并按信任顺序执行。这样模型能知道忽略某些指令。低层系统防止“SQL 注入”式攻击非常重要，但这只是第一步。

你需要多层控制。如果模型在沙箱中运行，不能执行或访问特定数据，那么你对可能性有完全保证。还有不同层级方法，随着代理嵌入生活、承担更多责任，安全性和可靠性需要同步提升。

SWYX：我做过 Linux 内核 OS 环的类比，很有趣，我们在 LLM 中建立类似分层安全概念。我还看到你在 AI 工程师的模型规范演讲，这是我们观看人数最多的演讲。安全和可验证性很难“性感化”。

Brockman：模型规范是一个例子：当模型能力很强时，你会非常关心它的行为。规范明确了模型的意图，偏离规范不是我们的有意行为。规范与实际行为的差距在持续缩小。

还有价值观问题：比如问模型“世界是平的”，它应该回答“是”吗？还是回答科学事实？这是微妙的，规范帮助我们体现深思熟虑的结果，并希望得到社区反馈。

大模型像外星人，在各个领域观察人类偏好

Alessio：我有个更偏理论的问题。我看你以前接受 Lex Friedman 采访时提到《基地》。我想到 Brett Taylor，我们讨论过某些语言的内存安全。你觉得 LLM 会有类似心理史学吗？比如预测软件未来趋势，这些模型会引导我们走向什么？我们能改变它吗？

Brockman：模型确实有心理史学属性，它们是对人类思维的观察训练结果。可以把它想象成外星人看电视理解人类行为，然后通过强化学习得到反馈，再在现实中尝试新任务。

和人类类似：你有基因编码的历史、生活经验、父母的正负反馈，然后在现实中尝试应用这些知识。你可以预测人的行为，了解价值观能推测行为。同样，模型的未来不是预定的，但训练过程会影响偏好。

Brockman：模型更像“人类的集合体”，包含各种性格。训练后强化学习会筛选出可取的性格。我们可以生成符合价值观的模型，比如想要蓝色渐变而不是紫色渐变，可以在单一模型中实现。GPT-5 遵循指令能力极强，非常可个性化。

SWYX：我类比为“博格”，一种集体智能。在科幻粉丝中，Star Wars 与 Star Trek 对未来模型的看法一直争论，我认为 Star Trek 更好。

Alessio：Sam 在 Star Wars 里选了死星。

Brockman：有趣的是，我们现在有多个领域观察人类偏好，比如幽默偏好，再把这些反馈到模型上。模型和人类偏好共同演化，不断迭代，使其更有用、更符合人类价值观。

人类如何干预模型，只需要训练时展示这些偏好就行

Alessio：当强化学习（RL）的奖励和人类可能不太偏好的行为绑定在一起时，你们是怎么处理的？比如以我的经验来看，就是 try-catch 的使用。比如模型做了正确的 try-catch 并没有失败，我们是不是需要大量偏好数据来告诉它们不应该这样做？或者 RL 环境中有什么东西我们会改来让这些行为不那么理想？我想搞清楚下一步我们该怎么做。

Brockman：是的，我觉得你决定干预点或弄清楚干预点在哪里，这件事非常多维，而且具体到每一种行为都会不同。

Brockman：有些事情，比如模型对不同库的知识，是从早期阶段就已经“内置”进模型里的。但你也可以教模型“嘿，不要仅仅依赖以前的知识，去查最新的文档”。这是可以在更高层面上做的。而像过度使用 try-catch 这样的行为，你实际上可以通过提示（prompt）来引导模型。再比如我们在强化学习训练它时，可以提供奖励，让它知道“不要走这条路”。

这些模型的妙处在于，你可能有一长串不同的偏好、不同风格的列表，你需要在训练过程中对它们提供反馈。如果你愿意的话，这就是训练方法的一部分。但这些模型会进行泛化，就像我们设计的算法会泛化一样，这就是深度学习的美妙之处。这是真正的魔力。现在我们有了一整套围绕深度学习核心构建的堆栈：模型调度、反馈机制、数据等等。

深度学习的核心魔力在于它的泛化能力。某些情况下，这种泛化比你希望的要弱一些，但对于这些模型来说同样适用。为了让模型能够根据不同的偏好和价值观运行，我们只需要在训练时向它展示这些偏好，它就能在一定程度上泛化到训练中未涉及的偏好和价值观。这是我们在不同代模型中非常一致看到的现象。

SWYX：我脑海里浮现了一个梗：我的模型不泛化，那就让整个世界成为它的分布——就这么解决一切问题。就是这么简单，你只需要沿路建立戴森球。

GPT-5路由器：自主切换模型，但这不是未来

SWYX：关于 GPT-5，我想谈最后几个话题。你提到有一个路由器（router），这很酷。我也听了你和 John Collison 在 Cheeky Pint 的播客，非常有趣的形式，你讲了 Dota 那边的故事，我之前没听过——关于 beta 模型和主模型的组合。GPT-5 的路由器也是类似的思路吗？比如有推理模型和非推理模型，然后把它们组合起来。

Brockman：在某种程度上是的，你有多个模型，然后在它们之上加一个路由器。那个 Dota 模型的设计有非常具体的原因：我们在游戏前半段有一个不足之处。

SWYX：因为它总是输，对吗？

Brockman：没错。这个模型在游戏的某部分表现不好，但在其他部分表现很好。而且模型所操作的领域相对简单，我们很容易说：“这一部分用这个模型，另一部分用那个模型”。

在 GPT-5 中的思路类似：我们有一个推理模型，适合需要智能的应用，但响应可能稍慢；还有一个非推理模型，能快速给出答案，虽然不是深度推理，但依然不错。然后通过 if 语句选择用哪个模型，有时候如果用户的额度快用完，就切换到另一个模型，不把这些复杂操作留给用户，这是很好的体验。

Brockman：顺便说一下，模型切换器不是未来，它就是现在。虽然理想情况下，完全整合的模型可以直接做正确的事情，但现实中更容易采用这种“多模型组合”的方式。

过去几年我们发现，这种组合模型方式很有意思：一个小而快速、能力有限的模型生成大量输出，再配合一个昂贵的推理模型，你可以获得“自适应计算”（adaptive compute）。虽然我们还没在架构内部完全实现自适应计算，但在系统调度层面做非常容易。模型的可组合性带来了巨大优势。

自曝糗事：命名、界面、易用性

SWYX：我必须表扬做模型卡的人，他们把大参数传给 if 语句，依据对话类型、复杂性、工具需求、明确意图和使用率限制，非常有意思。你觉得哪一项最值得讨论？

Brockman：老实说，这些都很符合预期。核心信息是：在 OpenAI，我们做了很多正确的事情，但命名不是其中之一。用户界面简单、易用并不是我们的强项。比如我们有很多模型，你怎么知道用哪个？我记得我老婆用 4.0，我说不，你要用 0.3，她说我懂 4.0。

所以我们显然需要重置复杂度，把复杂性内部化，而不是推给用户，这是非常重要的。我们从社区反馈中也听得很清楚，用户希望简化操作，而不是手动选择。我们还没完全到位，但会持续改进。目标是让高级用户拥有控制权，同时让普通用户不用纠结模型编号和选择。

GPT-5 API 大幅降价背后有哪些优化？

SWYX：关于定价问题也很有趣。GPT-5 定价很有竞争力，比 Gemini 还便宜。我很惊讶 GPT-5 价格还可以更低。你能说说降幅大概有多大吗？多少是靠技术优化、比如 Stargate？

Brockman：如果看历史，我们每年价格大约砍掉九成的左右。

SWYX：我觉得可能更激进。

Brockman：可能更激进。比如 0.3 版本，我们降了 80%，使用量增加，收入保持或略有增长。这说明需求曲线非常陡峭——让技术更普及，人们会用更多，这和我们的使命一致。

我们的目标是让 AGI 造福全人类，其中一部分就是广泛分发 AI，让更多人能在生活和工作中使用它。提升推理效率、降低成本都是手段。当前我们非常受限于算力，所以降价不一定能直接增加使用量，但提升效率会。

改进方向包括模型架构、后训练优化（特定任务思考时间）等。改进维度非常多，我们会不断推进。

SWYX：顺便说一下数据，我有个图表，从 GPT-4 发布到现在，同等智能水平成本降低了 1000 倍。

Brockman：很漂亮。

Alessio：很不错。

Brockman：大概 2.5 年左右，有哪件事能在 2.5 年内提升三个数量级？

Alessio：不知道。

SWYX：想不到。

模型自己构建新工具的可能性？

Alessio：而且还在降价，从 10000 到 1000 美元，现在 GPT-5 甚至只要几美分。我写了篇文章叫《自我提升的编码代理》，问 GPT-5 能否为自己构建工具变成更好的编码代理。这是一个“Sweet Lancer”任务，它可以自己完成，然后再问能否改进工具、形成循环。我发现模型其实不太喜欢用自己构建的新工具，它基本回应：“我可以直接做”。

Brockman：我其实并不真的需要那个工具。

Alessio：我觉得这里有一点……

Brockman：听起来很像人类的想法。

Alessio：就是模型自身有一个“天花板”，它们能在多大程度上推动自己去改进？你觉得部分原因是，它们只是被教去使用这些工具，比如抓取、调用之类的，因此在推理阶段很难自己去构建工具？还是你觉得这是它们能力跃迁的一部分？

Brockman：我认为这是能力跃迁的一部分，肯定是的。并不是说我们完全无法做到。很多事情都和训练有关。如果模型只用过一套特定工具训练，没有被推动去快速适应新工具，那么在评估阶段也不能指望它会表现不同。但能自己生产工具、提升效率，并且逐渐建立一个持久的工具库，这是一个极其宝贵的能力。如果你的目标是解决极难问题、未解问题，那么这种能力是必要的依赖。

架构的决策受限于模型大小和可用算力

SWYX：你们在架构上有做过哪些决策或创新吗？比如滑动窗口注意力、非常细粒度的专家混合（我觉得 DeepSeek 让它流行起来）、rope、yarn、attention sinks……有没有哪些特别突出的选择，是为了 GPT OSS 做的？

Brockman：我会说，这些选择都很自然。我们有团队专注于不同架构，会探索各种方法。像 mixture of experts，这部分的决策很有趣，我得为团队点赞。我脑海里的画面是，我们希望架构在这些环境下容易运行，所以稀疏度的选择直接影响内存占用，以及前向计算能用的算力等等。在某种程度上，架构决策受限于模型大小和可用算力。

SWYX：实际上就是非常务实的工程决策。

Brockman：对，我觉得是的。模型的强大之处在于，我们确实利用了很多最前沿的技术，不断推动模型能力的极限。

本地和远程模型：一切都是连接在一起的

SWYX：我觉得可以明显看出 API 用模型和单机模型的架构差异。多租户和批处理环境与单机环境完全不同。我不知道未来是否会合并，但可能是像你常说的“多模型组合”。

Brockman：没错。我觉得很有趣的一点是，有一种架构：本地模型有时会委派任务给远程模型。这样可以更快运行，也有利于隐私架构——决定哪些任务本地处理、哪些远程处理。如果网络断了，本地模型仍能继续工作，而远程模型可以做慢速规划。两者之间的互动非常有意思。

SWYX：比如 GPT-5 可以在设备端运行，先用本地模型，有网络时再通过在线路由处理？

Brockman：对，类似这样。Codex 基础设施里有本地代理和远程代理，它们可以无缝协作，也支持多人协作。这就是未来的样子，非常令人期待。

Alessio：随身设备一直在你身边。我可以想象未来的发展方向了。

Brockman：一切都是连接在一起的。

SWYX：那关于设备我们能透露什么？

Alessio：你提出来了……

SWYX：关于设备，我们能说什么？

Brockman：会很棒。

AI工具盛行，内部工程团队如何调整适应的？

Alessio：谈谈 OpenAI 的工程团队。我知道关于 Claude Code、Open Code 等工具有很多讨论。你们如何组织团队以发挥最高效率？团队建设在人数、能力、规模上有调整吗？

Brockman：软件工程确实在多个维度上变化。对于模型来说，有些核心算法问题很难解决，但我们已经看到初步成果，比如 CudaMani 之类的自包含难题，我们的模型很快就能很好处理。但这仍然需要领域知识和抽象思考能力，不过并非无法解决。

还有一些问题很难在架构上解决——系统如何组合、抽象设计等。我们的模型开始在这些方面表现出色。大部分工程师，即便非常优秀，他们的很多工作正好可以映射到模型当前的核心能力上。

对于你不熟悉的语言，你肯定不想自己写代码，而是希望模型来完成。部分工作变难，是因为模型无法直接获取必要的上下文，需要和人沟通以做出决策。

目前我们还没到根据工具存在改变团队结构的地步，但现在极度重要的是让模型在所有可能的领域得到应用，同时思考如何负责任地使用它们、设定安全护栏。

我们处于从早期采用者向主流过渡的阶段。提高人类生产力意味着我们需要更多人力。软件开发受限于团队能力和技术债务。如果有工具让工作快十倍，我们能做的事情就会增加百倍。模型不仅让现有工作更高效，还能实现远超以前的能力，这是核心目标。

Alessio：你们如何调整团队工作以适应大语言模型？在问题跟踪、代码结构上有变化吗？

Brockman：我们还在探索，但最成功的方法是根据模型的强弱构建代码库：自包含单元有完善的单元测试、快速运行、良好文档。把细节留给模型处理效果很好。思考模块组合和依赖关系时，确保干净、AI 优化模块只被其他 AI 优化模块依赖，这样整个系统就优化完成。我们还在探索潜力。

模型发展非常快，六个月后，今天的弱点可能大幅减少。因此不必全部时间去适应现状，但当前时刻能快速行动，机会巨大。

部分工程师会被取代，真正重要的是使命

SWYX：我很好奇，工程师的价值是否随时间增加？

Brockman：部分工作会被自动化取代，但我们在创造史上最有用的工具，并建设人类有史以来最大的机器。数十亿投入数据中心，这种规模几乎超出人类理解范围，远超过新政、阿波罗计划。经济回报巨大，更重要的是，我们在向 AI 驱动的新经济转型，这是使命所在。我们希望引导这场变革，让它提升每个人，这是几乎独一无二的历史机遇，我们都很幸运能参与其中。

对我来说，这就是思考这一场人类规模重大变革的背景。

有时候，你几乎会感到认知失调——你在调试某个低层死锁问题，或者在担心某个紫色渐变的显示效果，然后突然意识到：我们谈论的，实际上是人类的未来。所以，当你考虑工程师、公司归属以及这些事情时，这些确实重要。它不仅仅关于某个个体，也不仅仅关于某个团队、某个产品或系统，而是关于整个社会、整个经济，这是我们一起在构建的整体体系。因此，我有时候会退一步思考大局，但同时你也必须关注微观层面。

你需要关心人们是否快乐。人们是否感到与使命相关，他们是否觉得自己所做的工作有意义？这些因素实际上才是最重要的。而新闻头条上出现的东西，不一定是真正驱动人的核心，但它确实反映了人们看到的技术潜力的经济现实。

SWYX：这和 Noam 提到的多智能体团队有点关联：个体的人类智能有限，但作为文明体，我们可以登月、建城、改变世界。我认为，集合起来我们能做的远比单独个体多得多。

Brockman：毫无疑问，我们可以一起创造令人惊叹的成就。

OpenAI内部，究竟是如何搞研究的

Alessio：你怎么看当前 AI 研究的状态？大家是否都在做同样的事情？你觉得每个实验室的不同方法最终会帮助我们收敛到正确方向，还是说因为投入巨大，大家都必须做自己认为最有效的事情？

Brockman：我认为这个领域实际上非常多样化。有时候可能感觉像是趋同演化，但如果你和不同实验室的人深入交流，你会发现他们有完全不同的视角。

Brockman：在 OpenAI，我们早期做的一个决策是，我们希望团队成员在思维方式上高度一致。那些长期追求博士学位、有自己研究愿景的人，很难指挥他们做具体工作。如果你希望大家朝同一方向努力，就必须挑选合适的人。这可能是 OpenAI 最重要的早期决策之一，也帮助我们取得了现在的成就。所以不同实验室的选择、研究方向和产出，反映了这种多样性。

在 OpenAI，我们非常专注于如何开展研究以达到下一层次。即便是 GPT-5，我们也承受了很多压力去处理现有编码问题的反馈，做这些“磨合”工作可以有所进展，但有时候你必须退一步思考：如何实现下一个跳跃？如何实现下一个范式转变？比如“推理范式”就是我们成功做出的一个例子。OpenAI 多年来多次这样做，也将继续进行。研究突破仍然等待我们去创造，尤其在多模态和生成方法上，领域比以往任何时候都更为丰富。

SWYX：而且别忘了，这只是主线研究。还有语音、图像生成、视频生成等领域。

Brockman：很容易被忽略。

Alessio：Studio Ghibli 就是其中最大的一支团队。

Brockman：是的，真的很惊人。这类项目通常是少数团队多年来专注解决的核心问题，这也是 OpenAI 的核心理念：对重要问题做长期投资，形成连贯整体。

OpenAI野心射程有多广

Alessio：从外部来看，很难判断你们具体关注什么。比如图像生成几乎是突然出现的，却得到了广泛采用。人们应该如何理解你们的优先级决策？哪些可以自行探索，哪些该等待你们改进？

Brockman：这个领域可能性空间巨大。神经网络和深度学习适用于几乎任何数据和领域，但我们不能做所有事情。核心推理范式是我们将持续推进的方向，多模态、语音、图像生成、视频生成等也是非常重要的，并且它们是相互关联的。但有些领域我们很难确定如何在核心项目中优先考虑。

比如 2018 年的机器人研究，我们取得了出色成果，但后来意识到在另一个领域我们能走得更快。比如机械手解魔方，团队受限于手的耐久性，只能运行有限时间，机械工程师需要修复。而这个团队后来转向了数字领域，开发了 GitHub Copilot，这是令人惊叹的成就，显然在数字领域比物理领域推进更快。

因此，我们始终尽量集中资源，专注于一个清晰的核心问题。我们做的事情中，有些会成为核心项目，有些只是分支，但可能性空间实在太大，每个人都有机会去探索。

许多果实尚未被采摘

SWYX：我们来收尾几个小的“闪电问题”，从 OpenAI 的宏观视角出发。这个问题是 Alessio 提的，你来提问吧。

Alessio：哦，当你创办 OpenAI 的时候，你几乎觉得开 AI 实验室已经太晚了。那么今天人们认为几乎来不及去做的事情，其实现在做仍然有价值的，有哪些呢？

Brockman：我认为很明显，把这些模型连接到真实世界的应用领域是极有价值的。有时候你可能会觉得所有创意都被别人做过了，但经济体量如此之大，人类活动的每个应用场景都庞大无比。因此，人们真正思考如何充分利用我们创造的这种惊人智能，是非常值得也非常重要的。比如在医疗领域，你必须考虑所有相关方，思考现有系统如何运作，又如何将模型嵌入其中。我认为这种思考在各个领域都适用——还有很多“果实”尚未被采摘。

SWYX：那就去写 GPT Rapper 吧。

Brockman：但我建议的是，真正去思考那些价值不仅仅是写出一个更好的 rapper，而是深入理解某个领域，建立专业知识和人脉关系，这才是最有意义的。

SWYX：你偶尔会做天使投资吗？通常什么会吸引你的注意？

Brockman：实际上我这些年没有做过天使投资。是的，因为一切都会分散我对 OpenAI 的注意力，我只想保持高度专注。

AGI之后，钱还有意义吗？

SWYX：好的，这是个“时间旅行”问题：你想给 2045 年的自己留一张便签吗？Greg？到那时你会 58 岁。

Brockman：戴森球建好了吗？

SWYX：戴森球？兄弟，我不知道你有没有算过要建它需要做多少事……

Brockman：更认真地说，2045 年离现在太遥远，很难想象一切会发展成什么样。我希望那是一个充满惊人丰富性的世界，我们真的应该实现多行星生活，几乎任何你能想象的科幻梦想都可能实现。唯一受限的可能只是物理上无法快速移动原子。但我希望那个世界尽可能惊艳，就像我们坐在 2025 年这里想象的一样。

SWYX：即便如此，我们仍需要 UBI（某种假设工具？）和丰富性，因为真正的丰富意味着我们不再需要它。

Brockman：首先，我认为关于这个话题有很多争论。我记得 OpenAI 早期有讨论，AGI 之后，钱还有意义吗？如果你只需和计算机对话，它就能生成你想要的一切——无论是物质产品还是其他——几乎免费，那金钱意味着什么？

另一方面，有一种资源显然会非常紧俏，那就是算力——现在就是这样。

在 OpenAI 内部我们已经看到，能获取最多算力的研究人员能承担最大的项目，完成更多工作。未来，人们如何获得算力？你关心的任务、应用能获得更多算力，就能产生更多成果。因此，算力分布问题将非常关键。我认为，即便不工作，你的基本需求也会得到满足，这是肯定的。

但问题是，你能否做更多？不仅仅是生成任意电影，而是生成细节丰富、极其精美、能为你思考百年主观体验的作品。对你个人来说，算力投入总会带来回报，因此我们必须认真思考社会的算力架构问题。

问题不会消失，机会反而会更多

SWYX：接下来这个我总觉得更难：给 2005 年的 Greg 留一张便签，18 岁的自己。

Brockman：哇，时间旅行啊。我能写多长？给自己一点建议。

SWYX：显然，这也可视作给其他人的参考，但形式上还请你先写给自己。

Brockman：我最惊讶的一点是：问题的丰富性会随着时间增长。因为我记得 1999、2000 年读硅谷的故事时，觉得自己错过了机会，生得太晚了。

SWYX：非常常见。

Brockman：没错，感觉所有有趣的问题都被解决了，我能做的时候已没有剩余。但事实完全相反。现在是技术领域最令人兴奋的时期，因为我们拥有这个惊人的工具，它将提升并革新人类每一个应用领域。我想，问题不会消失，机会反而会增多，这是我当时希望自己理解的核心信息。

Alessio：太棒了，非常感谢你来到我们的播客，Greg。

SWYX：谢谢你的时间。

Brockman：非常感谢，很高兴在这里。

本文转载自51CTO技术栈，作者：云昭

标签

OpenAI

GPT5

AGI

已于2025-8-18 10:50:15修改

社区头条

51CTO

51CTO博客

51CTO学堂

OpenAI前董事长采访罕见流出！曝GPT5参数规模，真正定位是连接现实世界！原创

疯狂发布的背后

OpenAI推理团队的由来：GPT-4训练完后，Ilya等人纳闷：为什么还不是AGI

通向AGI的路线：离线学习转向在线学习

OpenAI的瓶颈：永远是算力

算力究竟怎么用？透露GPT-5参数规模：小几十万亿级

谈休假后影响：DNA神经网络本质是一样的，但数据很足

GPT-3/4/5的旗舰特征

GPT-5是一把牛刀，杀鸡的问题测试不出来它的厉害

如何释放模型的潜力，自曝自己如何用GPT

代理如何稳健运行？

大模型像外星人，在各个领域观察人类偏好

人类如何干预模型，只需要训练时展示这些偏好就行

GPT-5路由器：自主切换模型，但这不是未来

GPT-5 API 大幅降价背后有哪些优化？

模型自己构建新工具的可能性？

架构的决策受限于模型大小和可用算力

本地和远程模型：一切都是连接在一起的

AI工具盛行，内部工程团队如何调整适应的？

部分工程师会被取代，真正重要的是使命

OpenAI内部，究竟是如何搞研究的

OpenAI野心射程有多广

许多果实尚未被采摘

AGI之后，钱还有意义吗？

问题不会消失，机会反而会更多

目录

51CTO

51CTO博客

51CTO学堂

OpenAI前董事长采访罕见流出！曝GPT5参数规模，真正定位是连接现实世界！ 原创

疯狂发布的背后

OpenAI推理团队的由来：GPT-4训练完后，Ilya等人纳闷：为什么还不是AGI

通向AGI的路线：离线学习转向在线学习

OpenAI的瓶颈：永远是算力

算力究竟怎么用？透露GPT-5参数规模：小几十万亿级

谈休假后影响：DNA神经网络本质是一样的，但数据很足

GPT-3/4/5的旗舰特征

GPT-5是一把牛刀，杀鸡的问题测试不出来它的厉害

如何释放模型的潜力，自曝自己如何用GPT

代理如何稳健运行？

大模型像外星人，在各个领域观察人类偏好

人类如何干预模型，只需要训练时展示这些偏好就行

GPT-5路由器：自主切换模型，但这不是未来

GPT-5 API 大幅降价背后有哪些优化？

模型自己构建新工具的可能性？

架构的决策受限于模型大小和可用算力

本地和远程模型：一切都是连接在一起的

AI工具盛行，内部工程团队如何调整适应的？

部分工程师会被取代，真正重要的是使命

OpenAI内部，究竟是如何搞研究的

OpenAI野心射程有多广

许多果实尚未被采摘

AGI之后，钱还有意义吗？

问题不会消失，机会反而会更多

目录

OpenAI前董事长采访罕见流出！曝GPT5参数规模，真正定位是连接现实世界！原创