
未来会有私人专属GPU!OpenAI联创、Codex打造者自曝OpenAI代码大模型的路线图:AI可委派一队Agent并行干活 原创
出品 | 51CTO技术栈(微信号:blog51cto)
OpenAI 不是要搞 AGI 吗?为什么突然专门开始搞编码大模型了?
今天一早,GPT-5 的 Codex 版本在凌晨发布,再度让整个 AI 编程赛道圈沸腾起来。紧接着 2 个小时后,OpenAI 官方的“GPT-5-Codex”的主题播客也放了出来。
OpenAI的“御用”播客主持人 Andrew Mayne (身兼作家、魔术师、OpenAI顾问)再度出镜,邀请 OpenAI 联合创始人 Greg Brockman,以及 Codex 工程负责人 Thibaut Succo,围绕 智能体、GPT-5-Codex、以及 2030 年编程赛道会是什么样的,展开了长达1小时的深刻讨论。
播客中,Mayne 提问的角度远比网友犀利:好好地,一直搞通用模型的 OpenAI,为什么突然搞起编程模型来了?
而恰巧的是,据小编了解到的,只要是OpenAI发布编程相关的产品,其实一直都是 Brockman 在背后站台,无一例外。
Brockman 表示,其实从 GPT-3 开始,OpenAI 就注意到了大模型可以自动补全 Python 代码,他们当时视为一种“生命迹象”。虽然GPT-4发布后,也尝试了许多其他领域,但编程赛道一直是重点。
提及语言模型和代码模型的区别,Brockman 提及了本质的区别:模型可以在代码环境中被用起来,不仅需要智能,接口设计也同样重要。
但写代码不一样,文字会“活过来”。你需要运行它,需要和工具联动,需要一整套“架子”。所以我们发现,模型能否被用起来,不仅取决于智能本身,接口设计几乎同样重要。
Brockman 甚至自曝今年年初OpenAI的一个公司目标:
到年底实现一个“具代理能力的软件工程师”(agentic software engineer)。
这足以看出 OpenAI 对于编码赛道的必争之心。
关于中午小编在实测OpenAI最新模型!文章中提到的CLI、云端 Codex的表现支离破碎、参差不齐的效果,播客中也有回应:目前是实验阶段。Codex 一方面是OpenAI的内部工具,一方面又要考虑如何对外,所以造成了这种割裂感。
最终的愿景是,应该有一个 AI 它既能访问自己的计算集群,也能“看着你”在本地帮助你,这两者不该是割裂的。
未来,大家还需要学编程吗?两位大佬回答得非常巧妙:
学编程可能不如学AI(工具)更重要。当然现阶段,用AI编程最好的人,自然还是有软件功底的大牛们。
那些用 AI 编程最成功的人,其实对软件工程基础都下过很大功夫。他们会搭好架构,设计合理的代码结构,然后再让 AI 辅助。
再比如,畅想未来,Brockman 似乎从 OpenAI 内部几个项目部门为了算力分配激烈竞争的情况嗅到了未来的炮火味:未来,人们可能会为了算力资源而竞争。
此外,还有许多 Codex 实际使用中的技巧,Sottiaux 介绍了许多OpenAI团队内部的使用方式,比如 agents.md文件等等,再比如,云端还是本地?CLI 还是浏览器、IDE?
值得一提的是,五年前,Codex 就开始被OpenAI提上了议程,5年后的2030年,又会是什么样子?Brockman 给出了很清晰的答案:
我们大体上能看见未来的轮廓:长期来看,你会希望有一个 AI 它有自己的计算资源,能委派给一队 agent 并行解决多项任务。你早上喝咖啡时可以查看 agent 的工作,给出一些反馈,说“这不是我想要的”,这个工作流最终会出现。
但现在的模型还不够聪明以至于能完全作为那种交互方式的主体。因此一个实在的 agent 在你的终端、在编辑器里帮你处理工作、看起来很像一年前你做事的方式,这也是现在可行的路线。
料还很多,建议大家收藏细读。
完整的对话内容整理如下,大家enjoy:
1.不是追求AGI吗?为什么专门搞起代码模型了
Andrew Mayne: 大家好,我是 Andrew Mayne,这里是 OpenAI 播客。本期我们将和 OpenAI 联合创始人兼总裁 Greg Brockman,以及 Codex 工程负责人 Thibaut Sucho 聊聊议程式编程、GPT-5 Codex,以及 2030 年可能的发展方向。
我们今天要谈的是 Codex。我自己其实从最早版本的时候就在用它,那时候我还在 OpenAI 工作。你们现在发布了新版。
我整个周末都在玩这个工具,印象非常深刻。这几年技术进步太惊人了。我想听听它最早的故事——最初是怎么想到用语言模型来写代码的?
Greg Brockman: 我记得在 GPT-3 的时代,第一次看到“生命迹象”:你输入一个文档字符串、一个 Python 函数定义,模型就能把代码补全。当你第一次见到这种情况时,你就知道——这东西会成的,会很大。我们当时有一个很宏大的目标:想象一下,如果语言模型能写出一千行连贯的代码,那会怎样?这就是当时的大目标。而现在,这个目标早就被实现了,我们甚至都不觉得稀奇了。研发过程中,你总是看到漏洞、不足、做不到的地方。但偶尔回头看看,其实已经走了很远。
Thibault Sottiaux:最不可思议的是,我们习惯进步太快了。昨天还不可能的事,今天已经成了日常工具,你每天都在用,过一阵子回头一想,上个月这还不存在。这种适应速度真的很让人着迷。
Greg Brockman: 我们一直在纠结的一个问题是:要不要在某个领域深耕?
Greg Brockman: 因为我们的终极目标是 AGI,通用智能。第一直觉当然是全面提升各种能力。但编码一直是个例外。我们为代码做了完全不同的训练计划:专门聚焦代码数据、代码指标,真正理解模型在编程上的表现。
后来我们也开始在别的领域尝试,但编程一直是特别的重点。比如 GPT-4,我们训练出了一个在各方面都大幅跃升的通用模型。但其实当时我们也在单独训练 Codex,甚至做过一个更偏 Python 的模型。
大概 2021 年吧,我们在推动代码能力。还记得 Codex 的第一次演示,那就是今天所谓“氛围编程”的雏形。当时我在搭界面时意识到,普通语言模型接口很简单:就是补全一段文字,可能再跟一句。但写代码不一样,文字会“活过来”。你需要运行它,需要和工具联动,需要一整套“架子”。所以我们发现,模型能否被用起来,不仅取决于智能本身,接口设计几乎同样重要。从那以后我们就很明确了。今年模型更强大之后,我们也开始不只看“比赛能不能赢”,而是让它真正有用:在多样化环境里训练,贴近用户的实际使用场景,然后打造这个“架子”。这也是 Thibaut 和他的团队特别发力的地方。
2.代码环境下, “架子”很重要
Andrew Mayne: 能解释一下“架子”(harness)到底是什么意思吗?
Thibault Sottiaux:可以。模型本身只是输入-输出的能力。
所谓“架子”,就是把它和周围基础设施整合起来,让模型能真正作用于环境。包括工具、循环方式,比如我们说的代理循环(agent loop)。本质上并不复杂,但当你把这些拼在一起、端到端训练时,就会出现近乎魔法的效果:模型能替你行动、创造,成为真正的合作者。可以把它想象成:架子是身体,模型是大脑。
Andrew Mayne: 明白了。
Andrew Mayne: 很有意思。想想 GPT-3 的时候,你还得写带注释的代码,告诉模型“这个函数要干什么”,在前面加上 #。而现在模型已经天然地很擅长写代码了。你刚刚提到,要在通用模型和代码专用模型之间权衡,这个是因为外部用户的需求,还是你们自己内部想要用?我觉得是两者都有。
Greg Brockman: 没错。我记得在 2022 年,我们和 GitHub 合作推出了 Copilot。那是第一次真正感受到:有一个 AI 在你写代码的流程里,它能帮你加速。当时有很多讨论:交互界面应该是什么样?是用“幽灵文本”直接补全?还是下拉列表给几个选项?不过有一点很清楚——延迟本身就是产品特性。比如自动补全,1500 毫秒就是上限,再聪明也没人愿意等。所以我们收到的信号是:要在延迟限制内,用尽可能聪明的模型。
但 GPT-4 更聪明,却满足不了延迟预算,那怎么办?它没用吗?当然不是。答案是——你要改“架子”。改交互方式。这就是关键:接口和使用方式要和模型的特性一起演进。极快且聪明的模型很棒,极聪明但偏慢的模型同样值得。我们一直相信智能的价值终会体现,虽然当下总会有人质疑“太慢了,谁会用”。但我们的态度就是:长远来看,更强的智能一定会证明自己。
Andrew Mayne: 在做 GitHub Copilot 的时候,我其实没法完全理解这会走向哪里。当时习惯了就是“补全一行”,让它做个小任务。没想到加上“架子”和各种能力,价值会扩大这么多。那时感觉只要有模型就够了,但现在才明白,工具链和周边的设计也能带来巨大的差别。
3.从用户疯狂喂给模型上下文到让模型自己驱动
Andrew Mayne:
你们刚提到多模态,现在已经有 Codex CLI,可以在命令行里用;也有 VS Code 插件;还能直接部署到网页。我当时没完全意识到这有多大价值。那么你们自己平时是怎么用的?在哪些地方感觉最有用?
Thibault Sottiaux:我想回到我们最早看到的一些迹象:公司里外有很多开发者——我们的用户会用 ChatGPT 来帮他们排查非常复杂的问题。我们清楚地看到一件事:人们会尽可能把更多上下文塞进 ChatGPT,粘贴代码片段、堆栈跟踪之类的,然后把这些交给非常聪明的模型寻求帮助。交互开始变得越来越复杂,直到有一天我们意识到,也许不要由用户来驱动这一切,不如让模型自己驱动交互、自己去找上下文、自己定位问题并调试这个难题,这样用户就可以坐下来看模型自己做事。可以说这是把交互反过来想的一种做法,也因此我们开始更多地思考“架子”(harness),赋予模型行动的能力。
Greg Brockman: 我们也在不断迭代不同的形态(form factors)。我记得年初我们尝试了几种不同的方法。我们有一种可以称作异步代理式的架构(async agentic harness),但我们也有本地体验和几种不同的实现方式。
Thibault Sottiaux:对,我们其实还试着把这个想法放到终端里运行。但后来感觉那样不够“AGI 风格”。我们需要能在大规模上远程运行的能力,你可以合上笔记本,把任务交给 agent 在后台继续运行,然后可能在手机上跟进并与之交互。那看起来很酷,于是我们在这方面推动了一把。但我们确实做过一个在终端里完全可用的原型,OpenAI 内部的人也在高效使用它。我们最后决定不把它作为产品推出——感觉不够打磨好。它曾被称为 10x,因为我们感觉它能给我们十倍的生产力提升。但随后我们决定去尝试不同的形态,最初全力押注异步形态。现在我们又回头、重新演进,决定把这个 agent 带回终端、带进你的 IDE,但我们真正想把握好的是:这个实体,这个与你协作的合作者,能以开发者已经在用的工具呈现给你。
Greg Brockman: 我们还有其他尝试,也算是多线出击。比如有一个版本是远程 daemon(守护进程)连接到本地 agent,所以你两者都能同时获得。
Greg Brockman: 我认为演进的一部分是:你几乎有一个矩阵(matrix),可以尝试不同方式部署工具。比如异步的:它在云里有自己的计算资源;有本地的:它在本地同步运行;你也可以在两者之间混合。
对我们而言,有一个问题是:应该更多关注去构建一个“可外化”的东西——即在用户多样化环境中都能用,还是更专注在我们自己的环境,确保对内部工程师非常好用?挑战在于我们希望两者都做好。最终我们想要的工具是对每个人都有用的。但如果你自己都做不出对自己有用的东西,又如何把它做到对所有人极其有用?所以我们要决定把工程努力聚焦在哪儿,如何做到“投入产出比”最大。今年我们总体的聚焦之一是:我们知道构建强能力的编码 agent 是最重要的事情之一。年初我们定了个公司目标——到年底实现一个“具代理能力的软件工程师”(agentic software engineer)。弄清楚这到底意味着什么、怎么实现、怎么把所有机会和计算资源整合到这个问题上,是许多 OpenAI 人员的重大工作。
4.未来的轮廓:便利性向左拉,智能型向上推
Andrew Mayne: 你提到内部有个叫 10x 的工具,是内部工具。有时候会觉得“哦,这对别人也很有用”,但决定何时对外、如何优先推广确实很难抉择。我们看到 claude code 变得非常强大,我想那是类似的从内部到部署的故事。当你开始思考下一步要把重点放在哪儿时,你怎么决定?你刚说可以把东西放到云上、放到 web 上,做那些代理式任务让你离开电脑也能继续运行。这种新模态让我很难全面想清楚,但这些东西有时需要时间沉淀,人们会慢慢独立发现它们。你们内部有没有人突然领会到“哦,现在我懂了”?我想答案是肯定的,对吧?
Greg Brockman: 我觉得我们大体上能看见未来的轮廓:长期来看,你会希望有一个 AI 它有自己的计算资源,能委派给一队 agent 并行解决多项任务。你早上喝咖啡时可以查看 agent 的工作,给出一些反馈,说“这不是我想要的”,这个工作流最终会出现。但现在的模型还不够聪明以至于能完全作为那种交互方式的主体。因此一个实在的 agent 在你的终端、在编辑器里帮你处理工作、看起来很像一年前你做事的方式,这也是现在可行的路线。
我觉得两者会逐渐融合:这是未来的样子,但我们不能抛弃当下——要思考如何把 AI 带入代码审查,让它主动出现、替你做有用的事。随之而来的是新的挑战:如果 PR(拉取请求)数量大增,你该如何筛选出真正想合并的那些?我们已经看到这些机会空间,也看到人们在 OpenAI 内部开始改变他们的开发方式、改造代码库的结构。
Thibault Sottiaux:是的,我觉得有两点合在一起说明了我们现在所处的位置。其一是基础设施很难做统一。我们当然希望每个人的代码、任务和包都能被完美容器化,从而在大规模上运行,但现实并非如此。很多人有非常复杂、只能在笔记本上跑通的设置,我们要能利用这些并在用户现有环境中提供支持,这样他们就不必为 Codex 单独做配置。这能让用户以非常低的门槛体验到强大的编码 agent 能为他们带来什么。同时这也让我们能实验哪个接口合适。六个月前我们根本没有在玩这些工具,现在一切都很新、演进得很快,我们必须持续迭代、在如何与这些 agent 协作上创新。我们觉得还没完全把界面做对,这还会继续演进。但把它做成零配置、开箱即用的体验,能让更多人受益并试用,给我们带来反馈,这对于持续创新非常重要。
Greg Brockman: 我记得年初跟一位很棒的工程师聊天,他说我们有一个集成能让 ChatGPT 自动看到终端里的上下文,这非常具有变革性——因为他不用再拷贝粘贴错误信息,只要瞬间问“bug 是什么?”,模型就能告诉他。这是一个集成带来的巨大改变,而不是更聪明的模型本身。很容易陷入只关注某一维度的问题——到底哪一维更重要?答案是两者都重要。我一直这么思考:回到 2020 年我们最初发布 API 时,有两条决定 AI 吸引力的维度:一条是智能(intelligence),另一条是便利性(convenience),便利性可以理解为延迟、成本或可用的集成。存在一个接受域(acceptance region):如果模型极其聪明,但运行要花一个月——只要它的输出极其有价值,比如能生成某段关键代码或治愈某种疾病,那也值得等待;反之若模型能力不足,那你只想要自动补全,必须极其便利、几乎没有认知负担。现在我们处在一个中间位置:我们有更聪明的模型,它们在便利性上比自动补全要差一些,但也远没有到要等一个月的程度。所以我们的挑战之一就是:什么时候把便利性向左拉?什么时候把智能向上推?这是一个极大的设计空间,也正是这件事有趣的地方。
5.用 CLI,插件、还是IDE?
Andrew Mayne: 你还记得吗?我在 2020 年做了一个上架时被展示的应用,叫 AI channels。那个时候 GPT-3 很有能力,但我得写 600 字的 prompt 才能让它做事。按那时候的成本和延迟,我觉得不是很现实。后来有了 GPT-3.5、GPT-4,一切开始拼到一起。你刚提到模型能看到你工作环境的上下文,我以前把 ChatGPT 的内容复制粘贴到工作区,那感觉像去超市却拒绝推购物车一样——极其低效。一旦把东西放到“轮子上”,事情就变好。现在我面临的问题是:坐下来工作我去用 CLI?用 VS Code 插件?还是去 Cursor?或者别的工具?你们怎么判定这一切?
Thibault Sottiaux:目前我们还在实验阶段,尝试不同的方法把 agent 带到你已经高产的地方。举例来说,Codex 现在在 GitHub 里:你可以 @Codex,然后它会替你去做事。如果你说“Codex,修复这个 bug”或者“把这些测试移到这里”,它就会跑去在我们数据中心的“自己的小笔记本”上运行并完成任务,你根本不用多想。
但如果你在一个文件夹里工作,就要决定是在 IDE 里做还是在终端里做。我们看到的是——高手用户在终端构建了非常复杂的工作流;而当你在处理文件或项目时,更倾向于在 IDE 里操作,那界面更打磨、你可以撤销操作、能看到编辑结果,不会错过。
终端也是一个很棒的“氛围编程”工具:如果你不太在意生成的代码具体样子,你可以快速生成一个小应用,更多关注交互本身而不是代码细节,更关注结果。这取决于你想做什么。但总体上仍处于实验阶段,我们在尝试不同的方案。
Thibault Sottiaux:我觉得这种状态会持续一段时间。
Greg Brockman: 我也深以为然。我还认为我们的方向会更多地是跨这些工具做整合。
因为人们会使用多种工具:终端、浏览器、GitHub 网页界面、本地仓库等。人们已经学会在合适的时候选择合适的工具。现在处在实验阶段,这些工具会显得支离且差异很大,你需要学一套新技能和各工具的使用方式。我们在迭代时要思考的是:这些怎么拼在一起?你现在可以看到一些端倪,比如 Codex 的 IDE 扩展能运行远程 Codex 任务。最终我们的愿景是:应该有一个 AI 它既能访问自己的计算集群,也能“看着你”在本地帮助你,这两者不该是割裂的。
Thibault Sottiaux:对。它就是一个编码实体,来帮助并与你协作。就像我和 Greg 合作时,我不会抱怨他有时在 Slack,有时当面说,有时在 GitHub review 上互动 —— 交互方式多样,这没问题。
图片
Thibault Sottiaux:这就像你和其他人类、合作者互动时的自然体验一样。这也是我们把 Codex 视为一个“具备代理能力的实体”的原因,它的设计就是为了在你想完成任务时极大增强你的能力。
6.Codex秘籍: agents.md,压缩而非扫描整个代码库
Andrew Mayne: 那我们来聊聊一些使用方式吧,比如agents.md。你要不要解释一下?
Thibault Sottiaux:好的。agents.md 是一组你可以提供给 Codex 的说明,它和代码一起存放,让 Codex 更清楚如何在代码库中高效地导航、完成任务。通常有两类信息很适合放在 agents.md:
一类是“压缩”信息,让 agent 更高效地读取 agents.md,而不是扫描整个代码库;
另一类是代码库本身无法体现的偏好,比如“测试文件应该放这里”,或者“我喜欢以某种风格来实现”。
这两类信息——偏好,以及告诉 agent 如何理解和使用代码库——在 agents.md 里非常有用。
是的。我认为这里有个很根本的问题:你如何把上下文和偏好传递给一个什么都不知道的 agent,同时让它少走一些人类上手时必然要走的弯路?
其实我们对人类也是这样做的。我们写readme.md。而agents.md 只是约定的文件名,告诉 agent 应该先去看这里。但还有一个问题:agent 目前记忆力并不好。比如你第十次运行 agent,它是否真的受益于前九次解决难题时的经验?所以我们还有很多研究要做:如何赋予 agent 记忆力,如何让它深入探索并理解整个代码库,再利用这些知识去解决问题。这只是一个例子,但类似的研究前景还有很多,我们能看到相当丰厚的成果。
Andrew Mayne: 现在竞争格局很激烈。
Andrew Mayne: 有一段时间,OpenAI 对很多人来说是“突然冒出来”的。GPT-3、GPT-4 接连发布,现在 Anthropic 也在做很强的模型,Google 的 Gemini 也很不错。你们怎么看行业格局?你们怎么看自己的位置?
Greg Brockman: 我觉得还有很大进步空间。我自己更关注潜力而不是竞争。我们 2015 年创立 OpenAI 时就觉得 AGI 有可能比大家预想的更早到来,而我们希望能在过程中发挥积极作用。要把这个愿景落实到实践,一直是我们主要的工作。
当我们开始探索如何打造既有能力、又真正有用的模型时,关键在于如何把它们带到人们身边。比如我们选择推出 ChatGPT,并提供免费层,这完全是基于使命——让 AI 尽可能广泛可及、惠及所有人。
在我看来,最重要的是保持指数级进步,并思考如何以积极、实用的方式落地。我们现在的模型是“GPT-4 级别的预训练模型 + 强化学习”,这样它们能更可靠、更聪明。你可以想象,如果只是“读过互联网”,第一次写代码时肯定会很糟糕;但如果能练习解决难题,有 Python 解释器,有各种工具,那么就能更稳健、更精细。
这些环节现在已经能协同运作,但我们必须继续推进到下一个层级。比如大规模重构代码库——目前还没人完全攻克,但没有任何原理性障碍。一旦做到,企业级用例会爆发。比如 COBOL 系统,现在几乎没人再学习 COBOL,它已经成了全球的隐患。唯一出路就是打造能处理这种任务的系统。所以这是个巨大的开放空间,指数曲线还在延续,我们必须跟上。
7.从补全API切换到响应API
Andrew Mayne: 我今天最喜欢的一件事,是 OpenAI 发推介绍怎么用 CLI 从 completions API 切换到responses API。因为这…
Thibault Sottiaux:这是个很好的用途,我预期会看到更多类似情况。比如给 Codex 特别的指令,让它可靠地去做重构,然后就能自动完成。迁移任务是最痛苦的,没人愿意做。要换库、保证一切照常运行,谁都不想。如果我们能自动化大部分,那就是非常有价值的贡献。
Greg Brockman: 我觉得还有很多方向。比如安全补丁,很快会变得极其重要。
Greg Brockman: 还有,AI 能生成新工具。想想 Unix 的标准工具集有多重要。如果 AI 能自己为人类、也为自己构建实用工具,就能不断叠加复杂度和效用,形成效率飞轮。AI 不仅写代码,还能执行、管理服务,做 SRE 运维,这些都在前方。
Greg Brockman: 它们正在发生,但还没达到我们理想的程度。
8.OpenAI内部揭秘代码审查功能的诞生
Thibault Sottiaux:我们内部已经攻克了一个大问题,并决定以代码审查的形式发布。我们发现最大瓶颈是代码量增加后,团队必须花大量时间做 review。于是我们开发了一个高信号模式的 Codex,让它能审查 PR,深入思考契约和意图,再验证代码是否符合。它能跨层级追踪依赖、检验契约,指出即使是最优秀的人类审查员也要花数小时才能发现的问题。
这个工具先在 OpenAI 内部发布,非常成功。一旦出问题,大家都抱怨失去安全网。它极大加速了团队,尤其是 Codex 团队。就在 IDE 扩展发布前一晚,我的顶尖工程师提交了 25 个 PR,Codex 自动发现了不少 bug,第二天 IDE 扩展几乎无 bug 发布。速度令人难以置信。
Greg Brockman: 而且很有趣的是,大家一开始对自动代码审查工具非常紧张。以往的尝试都让人觉得是“噪音”——只是某个机器人发来的邮件,没人愿意看。但这次完全相反。说明只要能力低于阈值,就会让人觉得负担,甚至反感;一旦能力突破阈值,人们就离不开它。
我们还观察到:如果某个 AI 功能现在“还行”,一年后它就会变得极其可靠,成为关键工作流。代码审查正是这样的方向。
Thibault Sottiaux:代码审查这块也很有意思,因为它不仅仅是审查,还在于让人类真正融入其中,把它当作一个协作伙伴,甚至包括在 review 的过程中。
我们反复讨论的一点是:怎么把这些发现呈现出来,让你真的愿意去读,甚至会从中学到东西——哪怕它错了。因为你能理解它的推理过程。大多数时候(其实超过 90% 的情况)它是对的,而作为代码作者或代码审查者,你往往能从中学到一些新东西。
Greg Brockman: 是啊。回到我们之前说的进展速度,有时候需要回顾一下过去是什么样的。我记得在 GPT-3 和 GPT-4 的阶段,我们特别关注“双倍下注”的问题。还记得 AI 说错了,你指出它的错误吗?
Greg Brockman: 哦,它会跟你争论,对吧?没错,它会试图说服你它是对的。我们早就过了那个阶段。现在即便还有一些边缘情况,就像人类一样,但那已不再是核心问题。很神奇的是,现在即使它没有完全命中正确答案,它也会把重要的东西挑出来,并且有相当合理的思路。我每次做完这样的代码审查都会想:“嗯,对,这个点值得注意,我确实该想一想。”
9.连续工作长达7小时,代码重构级任务
Andrew Mayne: 我们现在发布了 GPT-5。就在这期播客录制的时候,GPT-5-Codex 也已经推出了。
Thibault Sottiaux:我们对此感到非常兴奋。
Andrew Mayne: 非常激动。那么,你们能说服我吗?为什么我应该为此兴奋?
Thibault Sottiaux:GPT-5 Codex 是我们专门针对 Codex 优化过的 GPT-5 版本。我们之前讲过“harness”(工具集合),它就是为 harness 优化的。我们把它看作是一个紧密结合模型和工具的智能体,能更可靠地运作。
这个模型的特点之一是能长时间持续工作,具备完成复杂重构任务所需的“韧性”。但在处理简单任务时,它又能非常快地产生结果,几乎不需要过多思考。就像一个出色的协作者——你可以向它提问、查找需要修改或理解的代码部分、帮助你规划。而一旦交给它一项任务,它就能长时间坚持下去。我们内部测试过,它可以连续工作长达 7 小时来完成非常复杂的重构任务,这是我们以前在其他模型上没见过的。我们还在代码质量上投入了大量精力,让它特别适合 Codex 场景下的 GPT-5 使用。
Andrew Mayne: 你说的“工作长达 7 小时”,不是指它只是不断把内容放回上下文里吧?它真的会做决策,判断什么重要,然后一步步推进?
Thibault Sottiaux:没错。想象一下那种棘手的重构:你发现代码库已经不可维护,必须做一些修改才能继续前进。于是你先做一个计划,然后把任务交给 GPT-5 Codex。它会自己解决所有问题,让测试能运行、通过,最后完整完成整个重构。我们确实看到过它连续工作 7 个小时来搞定这样的任务。
Greg Brockman: 我觉得特别不可思议的是,这些模型的核心智能真的是令人震撼。甚至就在三、六个月前,它们在浏览和定位我们内部代码库的某个特定功能时,已经比我更擅长了。
而这本身就需要非常复杂的理解能力。
10.工程师的价值所在
Andrew Mayne: 你不会对 Greg 说“对不起吧”?
Greg Brockman: 因为问题在于,我可以做更多事情。我真正想花时间做、也希望别人记住我的价值的地方,绝不是“在代码库里找功能”。那不是我作为工程师的价值所在,也不是我希望花时间的事。
对我来说,核心在于:我们现在有了这样惊人的智能,它首先能吸走那些枯燥、重复的工作。当然,也有一些过程是有趣的,比如思考架构,这时候它又能成为很好的伙伴。但关键是我能选择如何花费时间。我可以去思考:要让多少个 agent 并行工作?分别负责什么任务?要怎么拆解问题?我把它看作是扩展了程序员的机会空间。
我是个坚定的 Emacs 用户,但我也尝试过 VS Code、Cursor、Windsurf 这些工具,一方面是为了体验,另一方面是因为我喜欢工具的多样性。但很难让我离开终端。不过现在,我发现自己越来越常有这种感觉:在重构的时候会想,“我为什么还要亲手敲这些代码?”比如还要记某个语法的精确写法,或者做一些纯机械性的操作。我更希望有个实习生来代劳。而现在,我在终端里就真的有了这样的“实习生”。我觉得这真的很了不起:我们已经到达这样一个阶段——你手里有了强大的核心智能,并且可以选择什么时候、如何使用它。
Andrew Mayne: 请在扩展里加上语音识别吧。我现在特别喜欢直接对模型说话,让它去做事。
Greg Brockman: 对,应该能直接和模型视频聊天。我觉得我们正走向真正的协作者、真正的同事。
11.Agentic 的未来
Andrew Mayne: 那我们谈谈未来吧。你们怎么看未来?Agentic 的未来有什么令人兴奋的地方?我们会怎样使用这些系统?
Thibault Sottiaux:我们非常确定的一个方向是:未来会有大量的智能体群体运行在云端,由人类——无论是个人、团队还是组织——进行监督和引导,从而创造巨大的经济价值。
换句话说,几年后,它会是这样的景象:数百万个智能体在公司或数据中心中运作,完成有用的工作。问题在于:我们该如何逐步走向那个阶段?该如何在实验中找到合适的形态和交互模式?必须解决的关键问题之一是安全、可靠性和对齐。智能体要能高效工作,同时确保安全,让人类始终掌握控制权。
这也是为什么在 Codex CLI 里,默认情况下,智能体运行在沙箱里,不能随意修改你电脑上的文件。接下来我们会持续投入,让运行环境更安全;同时研究什么时候需要人类介入、什么时候需要人类批准某些动作;逐步扩展权限体系,让智能体能在你允许的范围内使用权限,甚至在你批准时,执行一些风险更高的操作。最终目标是:建立一个完整的系统,支持多智能体,并能被个人、团队和组织灵活引导,而且要与组织整体目标保持一致。虽然现在看起来还有点模糊,但这方向令人非常兴奋。
Greg Brockman: 对,我完全同意。
我觉得更细一点看,这里面有很多技术问题要解决。Thibaut 说到的就是“可扩展的监督”。当你放出大量智能体写代码时,你不可能每一行都看。现在大多数人也不会逐行检查模型产出的所有代码。但关键是:如何保持信任?如何确保 AI 产出的东西真的正确?
这类问题其实我们早在 2017 年就开始研究,提出过一些策略:比如用人类或较弱的 AI 来监督更强的 AI,通过这种方式逐步建立一个机制,确保即使它们在做很复杂、很关键的任务时,我们依然能维持信任与监督,始终掌握方向盘。这是一个非常重要的问题,在“越来越强大的代码智能体”场景里体现得尤其明显。
但还有一个更容易被忽视的维度:人们往往会对当下的 AI 能力“过拟合”,以为这就是 AI 的全部。但我们还没有真正看到 AI 去解决那些全新、非常困难的问题。现在你让它做重构,你大致知道任务的形状,它会帮你完成很多工作,节省时间。但如果是一些根本无解的问题呢?
我想到的例子不仅仅是编程领域,而是在医学,比如新药研发;或是材料科学,比如创造出全新的材料。未来有很多能力正朝这个方向发展,会解锁这类应用。
对我来说,一个重大里程碑是:第一次有 AI 产出的成果本身极具价值和意义。不是因为它是 AI 做的,也不是因为更便宜,而是因为它就是一项突破。甚至不一定是 AI 完全自主完成的,而是和人类协作,但 AI 在其中是关键依赖。
我们已经看到了一些苗头。比如在生命科学中,研究人员会让 GPT-3.5 给出五个实验方案,试了五个,其中四个不行,但一个成功了。而反馈是:结果相当于一个三到四年级博士生的水平。这简直疯狂。
Andrew Mayne: 对,简直疯狂。
Greg Brockman: 对,那还是在 GPT-3.5(03)时代。现在在 GPT-5 和 GPT-5 Pro 上,我们看到的结果完全不一样。研究人员会说:“好,这是真的在做全新的东西。”有时它并不是单独解决那些宏大的理论,而是在人机协作中,把能力延展到远超人类单打独斗所能达到的地方。对我来说,这是必须持续推进并把握好的关键之一。
12.2030年,人们为算力分配而竞争
Andrew Mayne: 我在和别人聊未来的时候,总会遇到一个挑战——人们常常把未来想象成“现在 + 闪亮的外壳和机器人”。他们会设想:那等机器人把所有代码都写了会怎样?但你们刚才提到,其实有些事情你喜欢做,有些你并不在乎。那到 2030 年会怎样?它会是什么样子?五年前是 GPT-3,再过五年呢?
Thibault Sottiaux:想想看,六个月前我们还没有这些东西。所以要准确描绘五年后的样子其实很难。但有一点很重要……
Andrew Mayne: 等到五年后我会突然跳出来放播客说:“你当时就是这么说的。”不过到时候会是你的 agent 替你做这事。
Thibault Sottiaux:对(笑)。重要的一点是:那些属于关键基础设施、支撑整个社会的代码,我们必须持续理解它,并拥有理解它的工具。这也是我们为什么会强调代码审查。代码审查的作用就是帮你理解那段代码,成为你的队友,帮助你深入理解别人(可能还有 AI)写下的代码。
Andrew Mayne: 比如 NPM 上那些随便就有人塞进漏洞的包。
Greg Brockman: 对,这一直是个猫鼠游戏:攻击者越来越精,防御者也越来越强。AI 到来后问题是:到底哪一方更有优势?也许它只是加速了这场猫鼠博弈。但我认为有希望能通过 AI 解锁一些全新的能力。比如“形式化验证”,那几乎是防御的终极武器。让我兴奋的是,不只是继续这场永无止境的军备竞赛,而是最终能带来更稳定、更易理解的系统。
我觉得还有类似的机会:让我们真正理解系统。因为现在我们几乎处在“人类理解传统软件系统的极限边缘”。
Thibault Sottiaux:我们之所以打造 Codex,其中一个原因就是提升世界现有代码和基础设施的质量,而不是单纯增加代码量。这一点很关键。Codex 能帮你发现 bug,帮你重构,帮你找到更优雅、更高性能的实现方式,达到同样甚至更广的目标,而不是制造一亿行你根本看不懂的代码。让我兴奋的是,Codex 能帮团队和个人写出更好的代码,成为更好的工程师,最终得到更简洁的系统,却能完成更多事情。
Greg Brockman: 我认为展望 2030 的一部分是:我们会进入“物质充裕”的世界。AI 将让你几乎随心所欲地创造任何东西,比你现在想象的还要容易。
而且不仅仅是在数字世界,在物理世界也会如此,尽管难以预测。但与此同时,它会是一个“算力极度稀缺”的世界。
我们在 OpenAI 内部已经体验到一些端倪:不同研究项目为了算力彼此竞争,研究成败取决于算力分配。这点难以夸大。我认为未来世界将会是这样的:你能否实现、创造你脑中的一切,不仅取决于想象力,还取决于背后的算力。因此,我们必须思考如何增加全球算力的供给。我们想提升的不只是智能本身,还有智能的可用性。而归根结底,这是一个物理基础设施问题,而不仅仅是软件问题。
Thibault Sottiaux:以 GPT-5 为例,很了不起的一点是:它已经能作为免费版、Plus 版、Pro 版的一部分提供。
也就是说,你用 Plus 订阅就能用 Codex,你拿到的就是 GPT-5,和别人一样的版本。这种智能本身已经非常强大,同时它在成本上也非常高效。
Andrew Mayne: 让我印象很深的一点是,我觉得这个模型的能力更强了,但它出来时的定价却和以前差不多,甚至在某些方面更便宜。这让我觉得很惊讶,这种模式太棒了。
Greg Brockman: 我认为我们在提升智能水平的同时还能持续降价,这一点很容易被忽视,被人们当成理所当然,但其实非常疯狂。比如我们在 O3 上大概降了 80% 的价格。就像你说的,六美分就能买到当年 GPT-3 级别的智能。
Andrew Mayne: 对,当时还有媒体发文抱怨,说推理模型让使用成本更高了,但他们没有把推理模型和过去六七个月的推理模型相比。事实上,这些模型的效率提升非常快。
Greg Brockman: 而且这种趋势会继续下去。回到算力稀缺的问题,有一点我觉得很有启发性:现在大家谈的是打造上百万甚至上千万颗 GPU 的大规模集群。但不久的将来,每个人可能都需要一个专属 GPU 来运行自己的 AI 代理,这完全合理。这样一来,就意味着我们需要接近 100 亿颗 GPU,而现在的规模还远远不够。我们要思考的问题是,如何增加算力供给,让它真实存在于世界上,同时又要把有限的算力发挥到极致。这既是效率问题,也是智能提升的问题。可以说,要把这件事真正做成,需要大量的工作和建设。
Thibault Sottiaux:有趣的是,代理与 GPU 的关系在于:GPU 离用户越近,效果越好。
因为代理在执行时,可能在几分钟内调用两百次工具,它需要在 GPU 和你的笔记本之间不断来回交互,执行调用、获取上下文,再继续反思。如果 GPU 能离用户更近,那么整个交互和执行的延迟就能大大降低,这对体验是极大的提升。
13.学编程,不如学AI更重要
Andrew Mayne: 很多人都会问到未来、就业这些问题。是不是还需要学编程?我觉得现在正是学习编程的好时机。
Greg Brockman: 我同意。要学编程,但更重要的是学会如何使用 AI。这才是关键。
Thibault Sottiaux:用 Codex 学一门新的编程语言非常有趣。比如我们团队里有不少人之前不懂 Rust,但我们决定用 Rust 来构建核心框架。结果发现,他们通过 Codex 提问、探索不熟悉的代码库,很快就能上手并写出不错的结果。当然,我们团队里也有经验丰富的 Rust 工程师,负责把关和指导。但整体来说,这确实是学习编程的好时机。
Greg Brockman: 我当年是靠 W3Schools 的教程学会编程的,从 PHP、JavaScript、HTML、CSS 开始。我记得当时做应用时,不懂“序列化”这个词,就自己设计了一种结构,用特殊字符来分隔数据。问题是,如果数据里刚好也包含那个特殊字符呢?就只能自求多福了(笑)。这类坑,教程一般不会告诉你。但如果有 Codex 做代码审查,它会直接告诉你:这里用 JSON 序列化库就行了。这种“替你发现问题、甚至你自己都不知道要问的问题”,才是让编程效率大幅提升的关键。
Andrew Mayne: 我也经常通过看它的解法学到很多,比如发现新的库、新的方法。有时候我会故意给它一个很“疯狂”的任务,比如:用一千行代码自己写一个语言模型会怎么做?它可能没法完全成功,但你能看到它的思路,甚至学到自己不知道存在的方法。
Thibault Sottiaux:我注意到,那些用 AI 编程最成功的人,其实对软件工程基础都下过很大功夫。他们会搭好架构,设计合理的代码结构,然后再让 AI 辅助。这能让他们走得更远,而不是只停留在“让 AI 写点代码”的层面。
Andrew Mayne: 自从 GPT-5 和 Codex 发布以来,你们看到的使用情况怎么样?
Thibault Sottiaux:整体使用量增长了 10 倍以上。原本的用户用得更多,也用得更深入,时长也更长。我们现在把它纳入了 PLUS 和 PRO 计划,配上了很慷慨的使用额度,这也帮助它快速普及。
Greg Brockman: 对,而且我觉得大家的心态也开始转变,逐渐意识到 GPT-5 的使用方式和以往不一样。我们也有自己的一套工具和框架生态,一旦用户真正理解,就能跑得非常快。
Andrew Mayne: 今天聊得很棒,非常感谢你们来参加节目。最后有什么想说的吗?
Greg Brockman: 谢谢邀请。我们对未来充满期待,前路还有很多要建设的东西。技术进步依然在指数曲线上。让这些工具真正被所有人使用、发挥作用,是我们使命的核心
Thibault Sottiaux:我也很感谢能来聊这些。我现在和 Codex 的对话时间比和大多数人还多(笑)。它让我真切感受到 AGI 的存在,我也希望未来更多人能从中受益。
本文转载自51CTO技术栈,作者:云昭
