OpenAI前董事长采访罕见流出!曝GPT5参数规模,真正定位是连接现实世界! 原创

发布于 2025-8-18 06:22
浏览
0收藏

编辑 | 云昭

出品 | 51CTO技术栈(微信号:blog51cto)

近期有关 GPT-5 的争论真的是越来越多了。

许多网友不能理解 GPT-5 被宣传的那种“瘫坐在椅子上”的那种智能程度,更不用说是 AGI 了。

那么作为第一款混合模型,究竟如何看待 GPT-5 的意义?它在 OpenAI 的战略里是怎样的定位?一时间猜测四起。

在经历了发布风暴和用户试用不及预期的争议后,奥特曼的盟友、OpenAI的联合创始人兼总裁 Greg Brockman,很少见地录制了一期播客。

当主持人很犀利地问道:

很多人在 X(推特)上发截图说 GPT-5 没那么强,但问题本身其实很简单。你为什么有信心称它是“世界上最好的编程模型”?

Brockman 解释了原因,表示:

重点不仅是提升智能水平,还要讲智能引连接现实世界应用。我们花了大量时间观察人们在互动式编程里的使用方式,把大量反馈喂回训练。这是以前没做过的。

我们看到 GPT-5 在需要深度智能的任务上远超其他模型。

这场播客还挖出了当年 Ilya 训练出 GPT-4 时的感受:为什么还不是 AGI?一如现在人们对于 GPT-5 发布后的反应。

Brockman 透露,从此后 OpenAI 就将预训练的方式开始转向强化学习的推理范式上。

有意思的是,主持人差点说漏了嘴,透露出 GPT-5 的参数规模:低双位数万亿级(小几十万亿级)。

Brockman 对于OpenAI 内部工程团队如何使用大模型开发,也颇有心得:

大部分工程师,即便非常优秀,他们的很多工作正好可以映射到模型当前的核心能力上。

对于你不熟悉的语言,你肯定不想自己写代码,而是希望模型来完成。部分工作变难,是因为模型无法直接获取必要的上下文,需要和人沟通以做出决策。

播客中,还提及了“墙钟时刻”,即不管实验是多么超前,但实验中钟表终归会与现实中的钟表对齐,进而提到了 OpenAI 是否遇到了瓶颈。

Brockman一口否认推理、预训练等这些技术上难题,直截了当地表示:算力才是 OpenAI 的瓶颈。

主持人进一步追问 OpenAI 的秘密:假如提供百倍的算力,OpenAI 会有哪些有创意的用法时,Brackman 却捂住嘴不说了。

算力如何花,花在哪儿,也是现在非常务实的一个命题,播客中有更详细的讨论。

还讨论了 AGI 时代到来后,金钱反而失去了意义。

篇幅关系这里不再过多展开了。本期播客主持人是两位创业者,分别是 Smol AI 创始人 SWYX,和 Kernel Labs 创始人 Alessio。

这里为大家奉上小编辛苦四个小时整理的播客全文,建议大家收藏细读。

疯狂发布的背后

SWYX:恭喜 GPT-5、GPT-OSS,还有最近在 open islands 上的各种新东西。我们今天都会聊到这些。很高兴你能来。上周整个就是一场疯狂的发布风暴吧,感觉如何?

Brockman:对,真的特别疯狂,在一周里发布了这么多东西。但没错,我们发布了开源模型,那些是我们筹备已久的成果,把很多 OpenAI 的最新进展压缩进一个小巧、非常易用的形态,现在已经被广泛使用了,这几天就有几百万次下载。同时我们也发布了 GPT-5,这也是我们长期研发的结果。能够把这些发布到世界上,我真的特别为团队感到骄傲。

Alessio:而且 GPT-5 是第一个混合模型,大多数人都没法自己选用哪个模型,这背后还有不少争论。

Brockman:我们会解决好这个问题。

OpenAI推理团队的由来:GPT-4训练完后,Ilya等人纳闷:为什么还不是AGI

Alessio:你当初是和 Ilya 一起创立了 OpenAI 的推理团队。能不能简单回顾一下 OpenAI 在推理上的历史?最初只是做下一词预测,后来为什么会觉得推理很重要?从那时到今天的 GPT-5,这条路是怎么走过来的?

Brockman:我会说,在训练完 GPT-4 后,我们有了一个真正能和人对话的模型。我记得第一次做后训练时,我们给它一个遵循指令的数据集,输入问题,输出标准答案。那时我们突然想到,如果再追问一个问题会怎样?结果它真的能结合前文的上下文,继续进行合理的回答。那一刻我们意识到,这东西能聊天,能利用上下文,甚至没有专门训练过也能做到。

我还记得我们开了个研究讨论会,Ilya、Jakub(现OpenAI首席科学家)、Wojciech(OpenAI创始成员) 都在,大家问:为什么这还不是 AGI?这个模型显然还不是,但很难说清楚为什么。它能回答几乎所有问题,但不够可靠,会出错,会偏离轨道。那我们需要做什么才能补上这个差距?最显然的就是要让模型能在世界里验证自己的想法,能做强化学习(RL),提出假设、尝试、得到反馈,从而变得可靠。这对我们来说并不是新思路。

回溯到 2017 年,我们在做 Dota 项目时,完全是强化学习,没有依赖人类示范的行为克隆。从一个随机初始化的神经网络开始,最后能学出复杂精妙、而且正确的行为——这就是我们想要语言模型达到的可靠性。

所以在 GPT-4 训练出来的那一刻,我们就知道必须进入“推理范式”。接下来就是怎么实现的问题。我们当时有十来个假设,团队就开始努力让它变成现实。很多尝试失败了,但最终有一个方向跑通了。关键就是不断坚持,不断推进,哪怕一开始只是零星的“生命迹象”,也要慢慢把它做大。现在 Jerry 负责我们的强化学习团队,已经取得很大进展。

这里面有非常了不起的基础设施工作,比如 Wea、来自推理端的同事、还有 Felipe 等人。OpenAI 有很多人齐心协力,才真正让这一切运作起来。真的很了不起。

通向AGI的路线:离线学习转向在线学习

SWYX:我记得你之前在工程师大会上说过你很喜欢图灵的那篇论文,那也让你走上了机器学习的道路。图灵其实预见到学习机器会部分在线学习。我一直在想,从 GPT-3、GPT-4 到 GPT-5 的过程,是不是从离线学习逐渐往在线学习过渡?

Brockman:这是个很有趣的问题:学习到底发生在哪里?我觉得我们现在还没达到人类那样完整的学习闭环。人类也未必完全是“在线学习”,比如你睡觉的时候,大量的“反向传播”其实是在长期记忆里发生的。机器和人类的机制并不完全对应。但确实我们正在从“训练一次→大量推理”的模式,往“推理→再基于推理结果继续训练”的模式演变。

Ilya 常说的一句话很有道理:当模型能力不足时,它生成的一个 token 的价值很低;当模型能力极强时,它生成的每一个 token 都很有价值——那代表着经过深思熟虑的重要信息。而强化学习的特点就是:模型不断尝试、生成数据,再基于这些数据继续学习,这些尝试和现实世界接触后被筛选,反馈回模型里。这正是我们现在逐渐学会利用的地方。

而且规模需求差别巨大。预训练里十个样例没什么用,你需要几十万的样例。而在 RL 中,如果你有 10 个、100 个任务,模型能反复尝试,就能真正学到东西。人类设计这些任务的杠杆效应非常大。接下来的一步,就是让模型在使用过程中实时学习。我们还没做到,但未来还没写完。

OpenAI的瓶颈:永远是算力

Alessio:之前我们和 Nolan Brown 聊过样本效率的问题。你觉得现在的瓶颈还是在于人类要设计高质量的任务,还是说更多还是模型本身的效率问题?

Brockman:瓶颈永远是算力。

SWYX:(笑)

Brockman:我是认真的。如果你给我们更多算力,我们总能找到方法去充分利用。现在我们的 RL 算法确实比以前高效了,但还是要消耗很多算力。比如一个任务,不是尝试一次两次,而是成千上万次,才能学好。人类设计任务的价值很高,但算力的需求也随之成倍增加。

SWYX:那如果我们有 10 倍、1000 倍的算力,你觉得最有创意的用法会是什么?

Brockman:我只能说——我们一定能找到用法(笑)。

Alessio:(笑)快点满足我们吧。

Brockman:我是认真的。比如当年做 Dota,大家都觉得现有 RL 算法不可能扩展。但没人真正试过。我们去做了,每周加倍算力,结果性能就不断提升,从没遇到真正的“天花板”。很多时候遇到的“瓶颈”其实只是 bug,一旦修复,就能继续前进。所以扩展过程本身就是最有价值的探索。

算力的投入方式很多:是做更大的预训练,还是更多 RL 尝试?不管怎样,本质上就是把能量转化为算力,再转化为智能。算力像是燃料,塑造神经网络,产出一个“程序”。这个程序可以被无限次运行,远远超过了训练时的算力消耗。这是一个很美妙的范式。

Alessio:你就像把动能转化为模型里的势能。那这些“势能”是不是能继续转化回 RL 的动能,用在各个领域?比如 IMO 数学奥赛的成绩已经达到了金牌水平,你觉得类似的技巧能在别的领域也达到同样的效果吗?

Brockman:我们已经看到一些证据了。IMO 模型能拿金牌,说明这种能力确实能迁移。其实我们没有针对性地特别训练,只是几个同事顺手做了一个 IOI 编程竞赛项目,结果也达到了过去所谓“重大挑战”的水平。你会发现,学会解决困难问题本身就是一种可迁移的技能。能写数学证明,就能转移到解编程竞赛题上。

如果你从未做过物理实验,如果你从未真正尝试过把一些化学品混合在一起之类的事情,你大概不会凭空就擅长这些事。所以说在泛化的限制上,你确实需要一些真实世界的经验,去实际尝试一下。但这些模型,它们已经做到几乎不合理的程度了。我们经常看到这样的情况:一家实验室的科学家拿像 o3 这样的模型来用,比如说问它一些假设:“这是一个实验设计,我该怎么做?”模型给他们五个想法,他们尝试这五个,其中四个不行,但一个行。而我们在 o3 上得到的反馈是,这样的成果足够发表在一个中等档次的期刊上,不是顶级期刊,但中等档次的期刊,差不多就是你会期待某个三年级、四年级博士生会做出来的那种工作。

再说一次,这真是个疯狂的事实——o3 已经到这个地步了。而且我们完全清楚如何在所有维度上改进 o3。它需要算力,需要大量工作,需要明确任务,需要大量人类的智慧、爱心、劳动和时间,把心血倾注进去。但结果,正如你说的,我们造出了一个东西,它内部蕴含着巨大的“势能”。而神奇的是,这个势能并不是释放一次就完了,而是一个检查点,你可以在各种任务上反复使用。这是我认为真正能提升全人类的事情。

算力究竟怎么用?透露GPT-5参数规模:小几十万亿级

SWYX:这太鼓舞人心了。我想回到两个点。一个是关于“墙”。我之前和 Noman 辩论时,认为确实存在一堵“墙”,也就是挂钟时间(wall clock time),因为时间必须真实流逝。比如在强化学习和环境交互里,模拟的速度确实可以比真实时间快,但最终还是要跟挂钟时间对齐。所以你能看到我们逐渐收敛到那个方向——迭代空间逐渐逼近真实世界的时间。我不知道你对如何解决这个问题有什么看法。当然,我们还没到那一步。

Brockman:所以我们暂时不用担心这个问题。我觉得这是个根本性的障碍。当然,模型有一些非常不寻常的特性。你可以同时运行很多个副本,即便你无法降低延迟,你也能横向扩展。

Brockman:另一个很有趣的点是算力到底花在哪里。我们正从一个世界过渡:以前大部分算力都花在训练模型上,但随着这些模型被更多部署,更多算力会花在推理和实际使用上。进一步想想,如果这些模型未来要大量与真实世界交互,那么它们大概需要在每个动作上投入很多思考。这样可能导致每一次现实交互都要耗费大量算力。所以算力的开销分布会和以前完全不一样。而拥有高效的运行框架就显得很关键。

再比如,如果我在真实世界中执行了一堆步骤,我要如何做检查点?如果一个系统需要重启,它就会丢失当前状态——那很糟糕。所以数字世界和现实世界的差异就在这里:在数字里一切都能完美保存和检查点化,但现实是混乱而复杂的。不过我觉得这不是坏事。

我们已经见过代理在非常复杂、非常混乱的环境中也能运作,比如 Dota。算法是有这个能力的。顺便说一句,Dota 用的神经网络只有 3 亿参数,像一个微小的昆虫脑子。而现在我们开始扩展到更接近人类规模的模型了——从参数数量上看,甚至可能算力规模上也开始接近,虽然可能还不完全到位。但本质上,我们确实在朝最终目标前进。你要想象一个 AGI,它应该能以高度可预测的方式和现实世界交互。

SWYX:是的,我脑子里大概有些数,你可以纠正我是不是差了几个数量级。人类有大约 100 万亿个突触,而 GPT-4、4.5、5 在参数上大概只有个位数到低双位数的万亿级,但这些数字我们不做确认。不过差不多是这样。

Brockman:对,我们正在往那个方向扩展。是的,100 万亿突触,大概对应神经网络的权重,所以两者之间有某种等价性。我们确实开始接近正确的数量级了,可以这么说。

谈休假后影响:DNA神经网络本质是一样的,但数据很足

SWYX:关于生物学基础,我上次没机会问:你曾经在研究所休假过,我好奇那段经历对你在 OpenAI 的工作有没有影响?

Brockman:我觉得最让我惊讶的是,DNA 神经网络和普通神经网络几乎一模一样,只是把“人类语言”换成了别的东西。

SWYX:甚至词汇表更简单?

Brockman:对,就是 4 个字母。

SWYX:不过你们不会在更高层级做分词吗?

Brockman:我们当时的做法就是直接做字符级建模。

SWYX:不会吧?

Brockman:是的,为什么不呢?

SWYX:我懂,确实只有 4 个字母。

Brockman:对,这也是很有意思的一点:在人类语言里,我们理解语义和结构,能直观地感受到一个分词方案是不是合理,能否覆盖所有词。而在生物学里,它是一种外星语言。对人类来说很陌生,但对神经网络来说,人类语言和生物语言没什么本质差别。

SWYX:因为硬件是一样的。

Brockman:没错。所以一个很惊人的假设是:既然这些神经网络能学人类语言,那它们就应该能学生物语言。

而且我们确实看到了类似结果。比如我们训练了一个 400 亿参数的神经网络,用大约 13 万亿个碱基对来训练。结果感觉差不多像 GPT-1,甚至开始接近 GPT-2 的水平。也就是说,它能在很多生物学下游任务里发挥作用,但还不是 GPT-3、GPT-4,更不是 GPT-5。我们还没法解决这些领域里真正困难的问题。但我们有算力,有正确的技术和算法。接下来就是要扩展,要考虑长上下文。

生物系统给模型带来的压力和语言不太一样。比如语言序列不会存在 10 亿个 token,但 DNA 会,你有 40 亿碱基对。所以它强调的东西不同,但本质上是同一个问题。

SWYX:有没有一个你最期待的应用?比如药物研发?当然大家都会想到药物研发,但在那之前有没有更容易实现、也很有影响力的东西?

Brockman:对我个人来说,比如我的妻子,她有一种叫 Air-glass Syndrome 的遗传病。直到最近我们才开始找到可能的遗传标记,之前一直不知道原因在哪里。这类情况如果我们有更好的生物学工具,就能找出各种疾病的标记。这只是一个例子,说明这些神经网络的潜力应用。

GPT-3/4/5的旗舰特征

Alessio:你会怎么定义 GPT-5 时代的开端?如果我把 3、4、5 看作几个主要版本:GPT-3 主要是文本,GPT-4 开始多模态和低延迟长思考,那么 GPT-5 的旗舰特征是什么?大家都在说“代理元年”,但还有没有别的东西值得注意?

Brockman:我觉得智能的程度已经到了几乎难以描述的地步。当然,还是有局限,还是会出错。但在非常困难的领域里,比如看看 IMO(国际数学奥赛)的成绩,模型能写出和顶尖人类同级别的证明。在这个特定领域里还是有局限,我们还没能证明一个真正未解定理,但这已经是个事实:模型能完成非常伟大的智力工作。这就是新的突破。

GPT-4 更像是广泛适用、在商业上有用,但它提出的想法不够深刻,解决的问题也不够可靠。

我还记得在 GPT-3 的时候,我试着教它一些很基础的东西。我们发现它能通过 few-shot 提示来学任务。我想教它排序,先给它 7 个数字,它没排好。后来我写了一整套教学脚本,从两个数的排序到三个数,再到五个数。结果还是失败。而如果你问 GPT-5 排序五个数字,我敢说它一定能轻松完成,毫无问题。

顺便说,它现在也能调用 Python 工具。

Alessio:所以……

Brockman:重点是,现在模型在智力上的飞跃可以真正帮助人类。我们已经看到数学家在试用 GPT-5,物理学家也在用,甚至有人说:“这个模型重新推导出了我花了几个月才发现的见解。” 这会极大加速人类进展。我记得自己在高中和大学早期做数学研究时,要花很久思考抽象物体和它们之间的联系。如果我能有个伙伴和我一起讨论,能深刻理解并提出新的见解,那会让我进步更快,也更有乐趣。GPT-5 带来的新东西,就是能和人类一起推进智力前沿。

GPT-5是一把牛刀,杀鸡的问题测试不出来它的厉害

Alessio:你觉得人们会被问题本身的难度限制吗?比如在 Cursor 或 Codex 里,我觉得模型在面对难题时表现更好。很多人在 X(推特)上发截图说 GPT-5 没那么强,但问题本身其实很简单。你为什么有信心称它是“世界上最好的编程模型”?普通人又该怎么正确评价它呢?

Brockman:确实有些任务是饱和的。比如闲聊“你好,你好吗”,能说的就那几句。但如果你要它解一道复杂的数学题,那就能看出智力的差异。大多数任务介于这两者之间。我们看到 GPT-5 在需要深度智能的任务上远超其他模型。

其次,我们花了大量时间观察人们在互动式编程里的使用方式,把大量反馈喂回训练。这是以前没做过的。比如 o3,我们训练时只用了一些固定任务,模型在那些指标上表现很好,比如代码竞赛。但那不等于现实中的编程。现实里的编程要面对 messy 的仓库、本地状态、抽象层次、不同库的不同版本。这种多样性不是靠几个结构化任务就能出现的。

所以我们现在的重点不仅是提升智能(虽然这始终是核心),还要让智能真正连接到现实世界应用。让模型走出舒适区,走出象牙塔,去面对真实世界的复杂和多样性。

如何释放模型的潜力,自曝自己如何用GPT

Alessio:在更实际的层面上,你对如何释放这些模型的潜在能量有什么建议吗?比如部分方法是加入代码检查器、类型检查器,让任务形成自循环。开发者在使用模型时,还有没有其他元层面需要考虑的?

Brockman:我观察到的第一点是,从这些模型中提取最大价值确实是一种技能。这需要韧性——真的去理解模型能力和弱点的轮廓。你需要去测试它:先从小任务测试,获取反馈,再给它更大的任务,看看它能否按预期工作。

人们通常会有自己的提示库。我自己在 GPT-4 时代就积累了一些提示库。在 GPT-4 发布前,我会先收集一些问题,比如“它能否做到这个”。重要的是,你要选择那些有多种可能答案的问题,而不是只有一个正确答案。比如在创意写作上,我喜欢让它把《指环王》和创业主题混合在一起,看看能得到什么,这也是测试和推动模型的一种方法。

我也会考虑任务如何拆分,让模型能独立处理一个自包含的部分。你不希望只运行一个模型实例,而是希望管理多个实例——不是管理一个代理,而是管理一组代理。因此,你首先要考虑代码库结构,然后推动模型操作不同模块。我觉得很多人喜欢做前端测试,GPT-5 在前端测试上很擅长,但大部分开发者的时间不是花在这上面的,所以不能过度依赖这一点。重要的是先熟悉模型,理解它的长处和短板,把它当作自己的延伸。

另一种方式是,让模型处理一些不在关键路径上的任务,这样即使出错风险低,你也能不断获取信息,而不必等很久却得不到回报。

代理如何稳健运行?

SWYX:你一直提到,针对 Codex 和 OpenAI 的编程能力路线图,后台的代理和 IDE 代理会合并。你是如何思考这个问题的?是不是只是 IDE 调用后台 API,后台 API 输出到 IDE?还是有更深的连接?

Brockman:我通常把 AI 产品化比作同事。你希望优秀的程序员同事能做什么?你不只是想通过 Slack 找他,而是有时希望他能过来帮你看一眼,甚至帮你操作键盘。你希望它远程异步工作,又能统一拥有知识和记忆,不希望它每天都是一个忘光一切的初级程序员。AI 需要可信访问你的基础设施,并且可以审计。

这些模型可以被精细管理,而人类不喜欢被如此管理。你要求人类每步都汇报,会很快失去耐心,但模型完全可以接受。这是一个值得利用的优势。

你希望模型能无缝混合:在远程机器上工作,不影响本地状态,全沙箱、可观察,同时在必要时能本地运行。代理的身份不应该仅限于本地或远程,它可以跨多台机器运行。

SWYX:软件代理可以无缝移动。提到审批,让我想起我朋友 Fuad,他在启动代理稳健性团队,也负责启动工程。

Brockman:我们考虑代理稳健性时采用纵深防御。模型本身有一层,比如指令层次(instruction hierarchy),区分系统、开发者、用户消息,并按信任顺序执行。这样模型能知道忽略某些指令。低层系统防止“SQL 注入”式攻击非常重要,但这只是第一步。

你需要多层控制。如果模型在沙箱中运行,不能执行或访问特定数据,那么你对可能性有完全保证。还有不同层级方法,随着代理嵌入生活、承担更多责任,安全性和可靠性需要同步提升。

SWYX:我做过 Linux 内核 OS 环的类比,很有趣,我们在 LLM 中建立类似分层安全概念。我还看到你在 AI 工程师的模型规范演讲,这是我们观看人数最多的演讲。安全和可验证性很难“性感化”。

Brockman:模型规范是一个例子:当模型能力很强时,你会非常关心它的行为。规范明确了模型的意图,偏离规范不是我们的有意行为。规范与实际行为的差距在持续缩小。

还有价值观问题:比如问模型“世界是平的”,它应该回答“是”吗?还是回答科学事实?这是微妙的,规范帮助我们体现深思熟虑的结果,并希望得到社区反馈。

大模型像外星人,在各个领域观察人类偏好

Alessio:我有个更偏理论的问题。我看你以前接受 Lex Friedman 采访时提到《基地》。我想到 Brett Taylor,我们讨论过某些语言的内存安全。你觉得 LLM 会有类似心理史学吗?比如预测软件未来趋势,这些模型会引导我们走向什么?我们能改变它吗?

Brockman:模型确实有心理史学属性,它们是对人类思维的观察训练结果。可以把它想象成外星人看电视理解人类行为,然后通过强化学习得到反馈,再在现实中尝试新任务。

和人类类似:你有基因编码的历史、生活经验、父母的正负反馈,然后在现实中尝试应用这些知识。你可以预测人的行为,了解价值观能推测行为。同样,模型的未来不是预定的,但训练过程会影响偏好。

Brockman:模型更像“人类的集合体”,包含各种性格。训练后强化学习会筛选出可取的性格。我们可以生成符合价值观的模型,比如想要蓝色渐变而不是紫色渐变,可以在单一模型中实现。GPT-5 遵循指令能力极强,非常可个性化。

SWYX:我类比为“博格”,一种集体智能。在科幻粉丝中,Star Wars 与 Star Trek 对未来模型的看法一直争论,我认为 Star Trek 更好。

Alessio:Sam 在 Star Wars 里选了死星。

Brockman:有趣的是,我们现在有多个领域观察人类偏好,比如幽默偏好,再把这些反馈到模型上。模型和人类偏好共同演化,不断迭代,使其更有用、更符合人类价值观。

人类如何干预模型,只需要训练时展示这些偏好就行

Alessio:当强化学习(RL)的奖励和人类可能不太偏好的行为绑定在一起时,你们是怎么处理的?比如以我的经验来看,就是 try-catch 的使用。比如模型做了正确的 try-catch 并没有失败,我们是不是需要大量偏好数据来告诉它们不应该这样做?或者 RL 环境中有什么东西我们会改来让这些行为不那么理想?我想搞清楚下一步我们该怎么做。

Brockman:是的,我觉得你决定干预点或弄清楚干预点在哪里,这件事非常多维,而且具体到每一种行为都会不同。

Brockman:有些事情,比如模型对不同库的知识,是从早期阶段就已经“内置”进模型里的。但你也可以教模型“嘿,不要仅仅依赖以前的知识,去查最新的文档”。这是可以在更高层面上做的。而像过度使用 try-catch 这样的行为,你实际上可以通过提示(prompt)来引导模型。再比如我们在强化学习训练它时,可以提供奖励,让它知道“不要走这条路”。

这些模型的妙处在于,你可能有一长串不同的偏好、不同风格的列表,你需要在训练过程中对它们提供反馈。如果你愿意的话,这就是训练方法的一部分。但这些模型会进行泛化,就像我们设计的算法会泛化一样,这就是深度学习的美妙之处。这是真正的魔力。现在我们有了一整套围绕深度学习核心构建的堆栈:模型调度、反馈机制、数据等等。

深度学习的核心魔力在于它的泛化能力。某些情况下,这种泛化比你希望的要弱一些,但对于这些模型来说同样适用。为了让模型能够根据不同的偏好和价值观运行,我们只需要在训练时向它展示这些偏好,它就能在一定程度上泛化到训练中未涉及的偏好和价值观。这是我们在不同代模型中非常一致看到的现象。

SWYX:我脑海里浮现了一个梗:我的模型不泛化,那就让整个世界成为它的分布——就这么解决一切问题。就是这么简单,你只需要沿路建立戴森球。

GPT-5路由器:自主切换模型,但这不是未来

SWYX:关于 GPT-5,我想谈最后几个话题。你提到有一个路由器(router),这很酷。我也听了你和 John Collison 在 Cheeky Pint 的播客,非常有趣的形式,你讲了 Dota 那边的故事,我之前没听过——关于 beta 模型和主模型的组合。GPT-5 的路由器也是类似的思路吗?比如有推理模型和非推理模型,然后把它们组合起来。

Brockman:在某种程度上是的,你有多个模型,然后在它们之上加一个路由器。那个 Dota 模型的设计有非常具体的原因:我们在游戏前半段有一个不足之处。

SWYX:因为它总是输,对吗?

Brockman:没错。这个模型在游戏的某部分表现不好,但在其他部分表现很好。而且模型所操作的领域相对简单,我们很容易说:“这一部分用这个模型,另一部分用那个模型”。

在 GPT-5 中的思路类似:我们有一个推理模型,适合需要智能的应用,但响应可能稍慢;还有一个非推理模型,能快速给出答案,虽然不是深度推理,但依然不错。然后通过 if 语句选择用哪个模型,有时候如果用户的额度快用完,就切换到另一个模型,不把这些复杂操作留给用户,这是很好的体验。

Brockman:顺便说一下,模型切换器不是未来,它就是现在。虽然理想情况下,完全整合的模型可以直接做正确的事情,但现实中更容易采用这种“多模型组合”的方式。

过去几年我们发现,这种组合模型方式很有意思:一个小而快速、能力有限的模型生成大量输出,再配合一个昂贵的推理模型,你可以获得“自适应计算”(adaptive compute)。虽然我们还没在架构内部完全实现自适应计算,但在系统调度层面做非常容易。模型的可组合性带来了巨大优势。

自曝糗事:命名、界面、易用性

SWYX:我必须表扬做模型卡的人,他们把大参数传给 if 语句,依据对话类型、复杂性、工具需求、明确意图和使用率限制,非常有意思。你觉得哪一项最值得讨论?

Brockman:老实说,这些都很符合预期。核心信息是:在 OpenAI,我们做了很多正确的事情,但命名不是其中之一。用户界面简单、易用并不是我们的强项。比如我们有很多模型,你怎么知道用哪个?我记得我老婆用 4.0,我说不,你要用 0.3,她说我懂 4.0。

所以我们显然需要重置复杂度,把复杂性内部化,而不是推给用户,这是非常重要的。我们从社区反馈中也听得很清楚,用户希望简化操作,而不是手动选择。我们还没完全到位,但会持续改进。目标是让高级用户拥有控制权,同时让普通用户不用纠结模型编号和选择。

GPT-5 API 大幅降价背后有哪些优化?

SWYX:关于定价问题也很有趣。GPT-5 定价很有竞争力,比 Gemini 还便宜。我很惊讶 GPT-5 价格还可以更低。你能说说降幅大概有多大吗?多少是靠技术优化、比如 Stargate?

Brockman:如果看历史,我们每年价格大约砍掉九成的左右。

SWYX:我觉得可能更激进。

Brockman:可能更激进。比如 0.3 版本,我们降了 80%,使用量增加,收入保持或略有增长。这说明需求曲线非常陡峭——让技术更普及,人们会用更多,这和我们的使命一致。

我们的目标是让 AGI 造福全人类,其中一部分就是广泛分发 AI,让更多人能在生活和工作中使用它。提升推理效率、降低成本都是手段。当前我们非常受限于算力,所以降价不一定能直接增加使用量,但提升效率会。

改进方向包括模型架构、后训练优化(特定任务思考时间)等。改进维度非常多,我们会不断推进。

SWYX:顺便说一下数据,我有个图表,从 GPT-4 发布到现在,同等智能水平成本降低了 1000 倍。

Brockman:很漂亮。

Alessio:很不错。

Brockman:大概 2.5 年左右,有哪件事能在 2.5 年内提升三个数量级?

Alessio:不知道。

SWYX:想不到。

模型自己构建新工具的可能性?

Alessio:而且还在降价,从 10000 到 1000 美元,现在 GPT-5 甚至只要几美分。我写了篇文章叫《自我提升的编码代理》,问 GPT-5 能否为自己构建工具变成更好的编码代理。这是一个“Sweet Lancer”任务,它可以自己完成,然后再问能否改进工具、形成循环。我发现模型其实不太喜欢用自己构建的新工具,它基本回应:“我可以直接做”。

Brockman:我其实并不真的需要那个工具。

Alessio:我觉得这里有一点……

Brockman:听起来很像人类的想法。

Alessio:就是模型自身有一个“天花板”,它们能在多大程度上推动自己去改进?你觉得部分原因是,它们只是被教去使用这些工具,比如抓取、调用之类的,因此在推理阶段很难自己去构建工具?还是你觉得这是它们能力跃迁的一部分?

Brockman:我认为这是能力跃迁的一部分,肯定是的。并不是说我们完全无法做到。很多事情都和训练有关。如果模型只用过一套特定工具训练,没有被推动去快速适应新工具,那么在评估阶段也不能指望它会表现不同。但能自己生产工具、提升效率,并且逐渐建立一个持久的工具库,这是一个极其宝贵的能力。如果你的目标是解决极难问题、未解问题,那么这种能力是必要的依赖。

架构的决策受限于模型大小和可用算力

SWYX:你们在架构上有做过哪些决策或创新吗?比如滑动窗口注意力、非常细粒度的专家混合(我觉得 DeepSeek 让它流行起来)、rope、yarn、attention sinks……有没有哪些特别突出的选择,是为了 GPT OSS 做的?

Brockman:我会说,这些选择都很自然。我们有团队专注于不同架构,会探索各种方法。像 mixture of experts,这部分的决策很有趣,我得为团队点赞。我脑海里的画面是,我们希望架构在这些环境下容易运行,所以稀疏度的选择直接影响内存占用,以及前向计算能用的算力等等。在某种程度上,架构决策受限于模型大小和可用算力。

SWYX:实际上就是非常务实的工程决策。

Brockman:对,我觉得是的。模型的强大之处在于,我们确实利用了很多最前沿的技术,不断推动模型能力的极限。

本地和远程模型:一切都是连接在一起的

SWYX:我觉得可以明显看出 API 用模型和单机模型的架构差异。多租户和批处理环境与单机环境完全不同。我不知道未来是否会合并,但可能是像你常说的“多模型组合”。

Brockman:没错。我觉得很有趣的一点是,有一种架构:本地模型有时会委派任务给远程模型。这样可以更快运行,也有利于隐私架构——决定哪些任务本地处理、哪些远程处理。如果网络断了,本地模型仍能继续工作,而远程模型可以做慢速规划。两者之间的互动非常有意思。

SWYX:比如 GPT-5 可以在设备端运行,先用本地模型,有网络时再通过在线路由处理?

Brockman:对,类似这样。Codex 基础设施里有本地代理和远程代理,它们可以无缝协作,也支持多人协作。这就是未来的样子,非常令人期待。

Alessio:随身设备一直在你身边。我可以想象未来的发展方向了。

Brockman:一切都是连接在一起的。

SWYX:那关于设备我们能透露什么?

Alessio:你提出来了……

SWYX:关于设备,我们能说什么?

Brockman:会很棒。

AI工具盛行,内部工程团队如何调整适应的?

Alessio:谈谈 OpenAI 的工程团队。我知道关于 Claude Code、Open Code 等工具有很多讨论。你们如何组织团队以发挥最高效率?团队建设在人数、能力、规模上有调整吗?

Brockman:软件工程确实在多个维度上变化。对于模型来说,有些核心算法问题很难解决,但我们已经看到初步成果,比如 CudaMani 之类的自包含难题,我们的模型很快就能很好处理。但这仍然需要领域知识和抽象思考能力,不过并非无法解决。

还有一些问题很难在架构上解决——系统如何组合、抽象设计等。我们的模型开始在这些方面表现出色。大部分工程师,即便非常优秀,他们的很多工作正好可以映射到模型当前的核心能力上。

对于你不熟悉的语言,你肯定不想自己写代码,而是希望模型来完成。部分工作变难,是因为模型无法直接获取必要的上下文,需要和人沟通以做出决策。

目前我们还没到根据工具存在改变团队结构的地步,但现在极度重要的是让模型在所有可能的领域得到应用,同时思考如何负责任地使用它们、设定安全护栏。

我们处于从早期采用者向主流过渡的阶段。提高人类生产力意味着我们需要更多人力。软件开发受限于团队能力和技术债务。如果有工具让工作快十倍,我们能做的事情就会增加百倍。模型不仅让现有工作更高效,还能实现远超以前的能力,这是核心目标。

Alessio:你们如何调整团队工作以适应大语言模型?在问题跟踪、代码结构上有变化吗?

Brockman:我们还在探索,但最成功的方法是根据模型的强弱构建代码库:自包含单元有完善的单元测试、快速运行、良好文档。把细节留给模型处理效果很好。思考模块组合和依赖关系时,确保干净、AI 优化模块只被其他 AI 优化模块依赖,这样整个系统就优化完成。我们还在探索潜力。

模型发展非常快,六个月后,今天的弱点可能大幅减少。因此不必全部时间去适应现状,但当前时刻能快速行动,机会巨大。

部分工程师会被取代,真正重要的是使命

SWYX:我很好奇,工程师的价值是否随时间增加?

Brockman:部分工作会被自动化取代,但我们在创造史上最有用的工具,并建设人类有史以来最大的机器。数十亿投入数据中心,这种规模几乎超出人类理解范围,远超过新政、阿波罗计划。经济回报巨大,更重要的是,我们在向 AI 驱动的新经济转型,这是使命所在。我们希望引导这场变革,让它提升每个人,这是几乎独一无二的历史机遇,我们都很幸运能参与其中。

对我来说,这就是思考这一场人类规模重大变革的背景。

有时候,你几乎会感到认知失调——你在调试某个低层死锁问题,或者在担心某个紫色渐变的显示效果,然后突然意识到:我们谈论的,实际上是人类的未来。所以,当你考虑工程师、公司归属以及这些事情时,这些确实重要。它不仅仅关于某个个体,也不仅仅关于某个团队、某个产品或系统,而是关于整个社会、整个经济,这是我们一起在构建的整体体系。因此,我有时候会退一步思考大局,但同时你也必须关注微观层面。

你需要关心人们是否快乐。人们是否感到与使命相关,他们是否觉得自己所做的工作有意义?这些因素实际上才是最重要的。而新闻头条上出现的东西,不一定是真正驱动人的核心,但它确实反映了人们看到的技术潜力的经济现实。

SWYX:这和 Noam 提到的多智能体团队有点关联:个体的人类智能有限,但作为文明体,我们可以登月、建城、改变世界。我认为,集合起来我们能做的远比单独个体多得多。

Brockman:毫无疑问,我们可以一起创造令人惊叹的成就。

OpenAI内部,究竟是如何搞研究的

Alessio:你怎么看当前 AI 研究的状态?大家是否都在做同样的事情?你觉得每个实验室的不同方法最终会帮助我们收敛到正确方向,还是说因为投入巨大,大家都必须做自己认为最有效的事情?

Brockman:我认为这个领域实际上非常多样化。有时候可能感觉像是趋同演化,但如果你和不同实验室的人深入交流,你会发现他们有完全不同的视角。

Brockman:在 OpenAI,我们早期做的一个决策是,我们希望团队成员在思维方式上高度一致。那些长期追求博士学位、有自己研究愿景的人,很难指挥他们做具体工作。如果你希望大家朝同一方向努力,就必须挑选合适的人。这可能是 OpenAI 最重要的早期决策之一,也帮助我们取得了现在的成就。所以不同实验室的选择、研究方向和产出,反映了这种多样性。

在 OpenAI,我们非常专注于如何开展研究以达到下一层次。即便是 GPT-5,我们也承受了很多压力去处理现有编码问题的反馈,做这些“磨合”工作可以有所进展,但有时候你必须退一步思考:如何实现下一个跳跃?如何实现下一个范式转变?比如“推理范式”就是我们成功做出的一个例子。OpenAI 多年来多次这样做,也将继续进行。研究突破仍然等待我们去创造,尤其在多模态和生成方法上,领域比以往任何时候都更为丰富。

SWYX:而且别忘了,这只是主线研究。还有语音、图像生成、视频生成等领域。

Brockman:很容易被忽略。

Alessio:Studio Ghibli 就是其中最大的一支团队。

Brockman:是的,真的很惊人。这类项目通常是少数团队多年来专注解决的核心问题,这也是 OpenAI 的核心理念:对重要问题做长期投资,形成连贯整体。

OpenAI野心射程有多广

Alessio:从外部来看,很难判断你们具体关注什么。比如图像生成几乎是突然出现的,却得到了广泛采用。人们应该如何理解你们的优先级决策?哪些可以自行探索,哪些该等待你们改进?

Brockman:这个领域可能性空间巨大。神经网络和深度学习适用于几乎任何数据和领域,但我们不能做所有事情。核心推理范式是我们将持续推进的方向,多模态、语音、图像生成、视频生成等也是非常重要的,并且它们是相互关联的。但有些领域我们很难确定如何在核心项目中优先考虑。

比如 2018 年的机器人研究,我们取得了出色成果,但后来意识到在另一个领域我们能走得更快。比如机械手解魔方,团队受限于手的耐久性,只能运行有限时间,机械工程师需要修复。而这个团队后来转向了数字领域,开发了 GitHub Copilot,这是令人惊叹的成就,显然在数字领域比物理领域推进更快。

因此,我们始终尽量集中资源,专注于一个清晰的核心问题。我们做的事情中,有些会成为核心项目,有些只是分支,但可能性空间实在太大,每个人都有机会去探索。

许多果实尚未被采摘

SWYX:我们来收尾几个小的“闪电问题”,从 OpenAI 的宏观视角出发。这个问题是 Alessio 提的,你来提问吧。

Alessio:哦,当你创办 OpenAI 的时候,你几乎觉得开 AI 实验室已经太晚了。那么今天人们认为几乎来不及去做的事情,其实现在做仍然有价值的,有哪些呢?

Brockman:我认为很明显,把这些模型连接到真实世界的应用领域是极有价值的。有时候你可能会觉得所有创意都被别人做过了,但经济体量如此之大,人类活动的每个应用场景都庞大无比。因此,人们真正思考如何充分利用我们创造的这种惊人智能,是非常值得也非常重要的。比如在医疗领域,你必须考虑所有相关方,思考现有系统如何运作,又如何将模型嵌入其中。我认为这种思考在各个领域都适用——还有很多“果实”尚未被采摘。

SWYX:那就去写 GPT Rapper 吧。

Brockman:但我建议的是,真正去思考那些价值不仅仅是写出一个更好的 rapper,而是深入理解某个领域,建立专业知识和人脉关系,这才是最有意义的。

SWYX:你偶尔会做天使投资吗?通常什么会吸引你的注意?

Brockman:实际上我这些年没有做过天使投资。是的,因为一切都会分散我对 OpenAI 的注意力,我只想保持高度专注。

AGI之后,钱还有意义吗?

SWYX:好的,这是个“时间旅行”问题:你想给 2045 年的自己留一张便签吗?Greg?到那时你会 58 岁。

Brockman:戴森球建好了吗?

SWYX:戴森球?兄弟,我不知道你有没有算过要建它需要做多少事……

Brockman:更认真地说,2045 年离现在太遥远,很难想象一切会发展成什么样。我希望那是一个充满惊人丰富性的世界,我们真的应该实现多行星生活,几乎任何你能想象的科幻梦想都可能实现。唯一受限的可能只是物理上无法快速移动原子。但我希望那个世界尽可能惊艳,就像我们坐在 2025 年这里想象的一样。

SWYX:即便如此,我们仍需要 UBI(某种假设工具?)和丰富性,因为真正的丰富意味着我们不再需要它。

Brockman:首先,我认为关于这个话题有很多争论。我记得 OpenAI 早期有讨论,AGI 之后,钱还有意义吗?如果你只需和计算机对话,它就能生成你想要的一切——无论是物质产品还是其他——几乎免费,那金钱意味着什么?

另一方面,有一种资源显然会非常紧俏,那就是算力——现在就是这样。

在 OpenAI 内部我们已经看到,能获取最多算力的研究人员能承担最大的项目,完成更多工作。未来,人们如何获得算力?你关心的任务、应用能获得更多算力,就能产生更多成果。因此,算力分布问题将非常关键。我认为,即便不工作,你的基本需求也会得到满足,这是肯定的。

但问题是,你能否做更多?不仅仅是生成任意电影,而是生成细节丰富、极其精美、能为你思考百年主观体验的作品。对你个人来说,算力投入总会带来回报,因此我们必须认真思考社会的算力架构问题。

问题不会消失,机会反而会更多

SWYX:接下来这个我总觉得更难:给 2005 年的 Greg 留一张便签,18 岁的自己。

Brockman:哇,时间旅行啊。我能写多长?给自己一点建议。

SWYX:显然,这也可视作给其他人的参考,但形式上还请你先写给自己。

Brockman:我最惊讶的一点是:问题的丰富性会随着时间增长。因为我记得 1999、2000 年读硅谷的故事时,觉得自己错过了机会,生得太晚了。

SWYX:非常常见。

Brockman:没错,感觉所有有趣的问题都被解决了,我能做的时候已没有剩余。但事实完全相反。现在是技术领域最令人兴奋的时期,因为我们拥有这个惊人的工具,它将提升并革新人类每一个应用领域。我想,问题不会消失,机会反而会增多,这是我当时希望自己理解的核心信息。

Alessio:太棒了,非常感谢你来到我们的播客,Greg。

SWYX:谢谢你的时间。

Brockman:非常感谢,很高兴在这里。

本文转载自51CTO技术栈,作者:云昭

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-8-18 10:50:15修改
收藏
回复
举报
回复
相关推荐