前董事长罕见曝OpenAI的“痛苦与困境”:我们正走向计算稀缺世界! 原创

发布于 2025-10-14 14:42
浏览
0收藏

编辑 | 听雨

出品 | 51CTO技术栈(微信号:blog51cto)

“我们正走向一个计算极度稀缺的世界,而能源将是下一个巨大的瓶颈。”

“未来,所有的授权都会变成‘角色扮演’授权。”

“我们希望能建立可以自主思考一年、甚至十年的AI。”

以上观点出自几天前OpenAI联合创始人兼总裁Greg Brockman在DevDay期间的一场闭门深度访谈,时间是Sora2发布后不久。

这场访谈中Greg表现得十分真实和坦诚,信息密度极高。

Greg没有回避OpenAI面临的困境,他用"pain and suffering"(痛苦与挣扎)来形容内部的计算资源分配决策,以及他们如何从一家纯软件公司转变为需要考虑建设数据中心、甚至自建能源设施的基础设施公司。

他直言美国的能源供应将成为AI发展的最大瓶颈。此外,他还分享了base模型与后训练模型的对比,以及对AGI定义的重新思考。

除了坦诚当前最大的瓶颈是计算与能源,Greg还首次系统解释了:

  • 为何将Sora 2 从技术模型打造成一款社交产品。
  • AI代理(Agent) 将如何改变互联网的货币方式。
  • 在内部,他们如何像玩“俄罗斯方块”一样,痛苦地分配极度稀缺的GPU资源。
  • 他对AGI时间表的最新看法,以及人类在其中的价值。

小编在这里精编了整场对话内容,信息密度极高,建议收藏细读。

模型扩展与Transformer架构的普适性

主持人

Sora 2 上周发布了,扩展一个像 Sora 这样的模型是怎样的体验,它与文本或图像模型有什么不同?

Greg Brockman

我想从基本层面来思考,所有的东西仍然是深度学习,机制是一样的,底层原理也没有变化。你需要扩展大量的计算资源,进行正向传播和梯度计算。从更细节的层面看,它依然是 Transformer,这一点非常惊人。你用不同的方式进行训练,采用不同的处理过程,涉及到扩散等概念。你在考虑如何将计算能力注入这些模型,但从根本上讲,最令我惊讶的是,尽管我们讨论的是文本和视频,它们似乎是完全不同的模态,但它们的底层计算过程有着巨大的重叠。这点真的很深刻。

主持人

你认为 Transformer 架构会推动我们迈向下一个阶段吗?甚至是实现全世界级的模型,Sora 2 显然是朝这个方向迈出了重要的一步。

Greg Brockman

是的,我认为有两点需要说。首先,我认为有很多问题值得讨论,比如我们是否遗漏了重大的创意,是否需要像 Transformer 这样的创新。我认为创新的空间依然很大,我们已经看到过这种进展,算法的提升步伐也在保持同步。

我们做过多年的研究,追踪模型进化的曲线,我不认为这些进展会停滞。扩展曲线和数据曲线仍在继续,而正是这些推动了这场革命。每一个环节都有自己的限制因素,你只需要不断调整,你会看到模型的性能显著提高。所以,我认为我们还有很多东西可以建设。如果 AGI 看起来跟现在的模型有些相似,我并不感到惊讶,但如果它完全一样,我会非常震惊。

主持人

当你查看这些不同类型的模型时,虽然它们都是基于 Transformer 的,但它们的成本差异大吗?你们是如何衡量不同类型模型的单元经济学的?

Greg Brockman

是的,确实存在不同的性能特征,有时我们会使用不同的推理栈,优化方法也不一样。一些模型可能会更适合不同类型的硬件,在内存和计算之间的平衡可能存在差异。

很多系统的工作在细节上看起来非常不同,当你试图从硬件中挤出极限性能时,它会推动你走向非常不同的方向。但归根结底,我们始终认为,推动这一切创新并将其带到世界的核心驱动力仍然是计算。

AMD合作进展与芯片生态的挑战

主持人

最近OpenAI和 AMD 的合作宣布了新的进展。那么,构建在 AMD 硬件上与其他硬件有根本性的区别吗?是说我们现在可以调用越来越庞大的资源池,还是需要进行深度技术改进?

Greg Brockman

我们实际上已经在多个方面投资了 AMD 的软件,因为我们在 Triton 基础上构建。Triton 是一个我们资助的项目,它几乎支撑了我们大多数 GPU。

我们目前面临的最大挑战是推理与训练。推理的固定成本已经很高,而训练的固定成本更高。现在,我们已经能够通过很少的工作量使用 AMD 软件并获得不错的表现。这一切得益于我们与 AMD 长期的合作关系,我们也提供了很多反馈。现在,从推理角度来看,我们感觉在扩展方面已经有了不错的进展,并且每种硬件平台都有适合它的定位和创新。

主持人

你是否曾考虑过像 Cerebral 或其他类似的公司,它们在芯片架构上采用了不同的路径,你是否考虑过这些新兴竞争者?

Greg Brockman

是的,2017年我们看到 Cerebral 时非常兴奋,因为它是一个完全不同的范式。你看到这些数字时,会觉得“哇,如果我们有一百万个这样的设备,我们就能实现 AGI”。这显然是一个非常不同的、非常特别的平台。

然而,事实证明,构建非 GPU 架构的挑战远比我们预期的要大。在 2017 年,我们非常积极地考虑了整个生态系统,试图与不同的芯片公司沟通,给他们一些建议,告诉他们工作负载应该如何设计。老实说,大部分公司并没有听取我们的建议。这就像是 2017 年时。

主持人

OpenAI 当时确实与现在很不一样。

Greg Brockman

你会很惊讶地发现,有些人现在仍然没有听取我们的建议。不过,我认为很大程度上,这并不是因为他们认为我们错了,而是因为如果你从芯片行业的人角度看问题,他们的思维方式是固定的,无法理解工作负载的需求。当你试图说,“不,不,问题应该从另一个角度来看”,那时你才会发现,模型应当是大型的,而不是小型的。如果你不接受这种设计思路,很难改变你原本的世界观。所以,成功的公司通常是那些从深度学习角度切入的,或者至少能够理解工作负载发展方向的公司。

当前最大的瓶颈:计算与能源稀缺堪称“痛苦与挣扎”

主持人

当你看到从计算机建设到推理服务的整个流程时,你认为今天最大的瓶颈在哪里?

Greg Brockman

我认为我们正走向一个计算机极度稀缺的世界,而能源,尤其是在美国,将会成为一个巨大的瓶颈。而且现在供应链中有许多环节尚未适应我们预见到的需求。因此,这就是我们多年来一直在反复强调的事情:我们需要建设更多的计算能力。

主持人

关于 OpenAI 是否正在开发自己的芯片,也有很多流言。那么你们是否考虑过投资自己的能源系统?或者在这方面做一些新的尝试?

Greg Brockman

如果你问我十年前的自己,2015年的我,我们会告诉你我们要建设 AGI。当时我们将其视为一个软件任务。

但实际上我们逐渐意识到,计算能力就是构建 AGI 所需的基础物质。它是可以更容易扩展的,而不像其他资源那样难以扩展。这就是为什么我们如此专注于计算能力。

你不得不将其推到极限,而后你开始意识到,实际上你需要建设巨大的物理基础设施。所以我们现在正走入这个领域,开始像 Stargate 那样建设自己的数据中心。

我认为我们现在的瓶颈主要取决于市场是否能够及时回应我们所传递的需求。我们已经很大声地向市场发出了信号,这不仅仅是来自 OpenAI,而是整个行业的需求。如果市场能醒悟并响应这些需求,那我们就能避免自己去开发能源基础设施。

主持人

但是我们还是要完成任务的。因此,在目前有限的 GPU 和计算资源下,你们有许多互相冲突的需求,包括消费者产品、企业产品、开发者 API 和训练。你们如何决定这些计算资源的分配,如何在内部进行协调?

Greg Brockman

痛苦与挣扎,这是最真实的状态。非常艰难,因为你看到各种令人惊叹的项目,很多人来推销自己的想法,你会觉得“这真是太棒了!”

主持人

你们做得如此多,如何选择该做什么呢?像我们这样的公司规模小,做决策都很困难。你能不能描述一下 OpenAI 内部如何处理这些问题?

Greg Brockman

从机制上讲,我们现在已经有了一个流程。比如,Jakub Pachocki(OpenAI首席科学家)和Mark Chen(OpenAI首席研究官)负责决定计算资源的分配。不过更广泛地讲,研究和应用部门之间有分歧,通常由 Sam 和我来协调最终的决策。

在研究方面,我刚才描述了计算资源是如何分配的。在具体操作层面,我的团队中有一些人专门负责这个艰巨的任务——实际调度 GPU 资源。你知道,这是一个非常有趣的过程。例如,Kevin Park 就是我的团队成员之一,当你去找他时,告诉他,“我们需要更多的 GPU 来支持这个新项目”,他就会说:“好的,现在有五个项目正在接近完成,这个新项目要先完成。”然后我们就能调整资源。

这就像是在做“俄罗斯方块”游戏一样,非常惊人地看到整个过程的实现。我觉得计算资源的分配不仅仅是一个简单的决策,它实际上是一个非常复杂的协调工作,一些部分由人来解决,有些部分则由表格来管理。真的是非常有趣的过程,能够亲眼见证这一切,尤其是在团队生产力的推动下,人们对是否能获得计算资源的关注度是无法低估的。

主持人

你们宣布了一个新举措,正在将“网络”引入 ChatGPT。你展示了 Zillow 的例子。随着应用程序逐渐转向更加原生的体验,你们如何看待这种互联网体验的解耦?随着代理越来越多地在我们的名义下浏览,似乎人们亲自上网浏览传统网站的时间在减少。你认为接下来的18个月会是什么样的?

Greg Brockman

实际上,我想在回答前一个问题时补充一下。我认为我们正在朝着一个以计算能力驱动整个经济生产力的世界前进。你在 OpenAI 中看到的这种小型生态系统,我认为在未来会在各个地方出现。所以我真正认为的是,我们需要建设计算能力,以缓解计算资源稀缺的问题,并且在我们面临计算分配问题时,能更好地处理这些问题。

主持人

你认为目前供应和需求的比例是什么样的?

Greg Brockman

我们离目标还远吗?哦,我觉得我们还远得很。我不确定具体差距有多大,但我可以说,如果我们现在的计算能力增加十倍,我们的收入是否能增长十倍?我不确定,但可能会增长五倍。因为我们有很多产品在等待发布,却无法推出。

你可以很直观地看到一些项目,比如 Pulse,它现在只有专业版。Pulse 是一个很棒的项目。

主持人

是的,我们之后会讨论这个项目。这个项目真的对计算资源要求很高。

Greg Brockman

我们确实需要更多的计算资源。

AI代理正在重塑互联网?可能会出现新的货币方式

主持人

让我们讨论一下互联网的解耦问题。你会发现,浏览互联网的基本方式正在发生剧烈变化,尤其是随着代理开始为我们浏览互联网,并且现在将传统网站引入 ChatGPT。你对这种变化怎么看?

Greg Brockman

我觉得 ChatGPT 真的让你意识到,去一个静态的网站只是为了查看信息是多么不自然。就像浏览一些静态信息一样。

你在浏览页面时寻找一个你需要的事实,但大部分页面的内容都与之无关。我们几乎已经跨越了这个阶段,尽管偶尔还会遇到,但它已经不再是主流,也不再是人们希望去做的事情。当你意识到你花了那么多时间去做这些事情时,这其实并不增加任何价值,就像是在大海捞针。实际上,应该是机器来为你做这些事情。

我认为,随着应用程序和 ChatGPT 这样的动态应用程序的发展,未来我们将不再需要进入网站点击一堆按钮去做一些动态操作。那感觉像是完全倒退的事情,我们本应该早就突破这一点。所以我认为,我们正朝着一个人们会更加重视自己时间的世界发展,因为现在已经没有借口浪费时间在那些不产生价值的事情上。如果人类没有在思考、创造或提供反馈,那就是 AI 的工作了。

主持人

那么这将如何改变网络的货币化方式呢?你知道,传统上,网络是基于 CPM 广告盈利的,用户给网站提供浏览量,网站则提供一些免费的内容和广告。但当代理在你的名义下进行浏览,尤其是当你将像 Zillow 这样的网站带入 ChatGPT 时,就会产生一些冲突。比如,他们是否仍在展示广告?那这样的模式会是什么样子?你如何看待随着这些变化的发生,网络货币化层面的变化?

Greg Brockman

实际上,真相是,现在没有人知道确切答案。但我认为我们可以看到这个趋势,我们必须探索并找到合适的方式来调整新的货币化模式,找到正确的扩展方式。我认为从根本上来说,这些技术对用户提供价值提出了新的要求。

如果你看看 ChatGPT,现在它是一个订阅制的产品,对吧?我们可能在三年前推出时没有预测到这一点,但人们愿意为它付费,因为它确实增加了价值——无论是对个人生活还是职业生活都有帮助,这种价值是全面的。因此,我并不是说广告就没有位置,但我认为现在的广告形式,比如你无意识地滚动页面,去找某个你关心的句子,结果你只是碰巧点击了某个广告页面,这种广告方式不再是价值的主要推动力。

不过,我确实认为会出现新的收入模式,会有新的货币化方式。而且,老实说,我认为这是目前最激动人心的时刻。

ChatGPT并非“另一个应用商店”

主持人

这确实是一个构建的黄金时代。如果回想十多年前,看看移动互联网过渡时期的出版商,很多公司在进入苹果的应用商店后变得依赖于它。那么你会怎么向他们解释,为什么这次不一样,为什么 ChatGPT 可能成为你人工智能体验的“主页”?

Greg Brockman

我认为这个故事还没有写完。我有一个观察,AI 似乎总是以一种令人惊讶的方式发展,完全不同于我们以前见过的任何东西。

它有些元素让人联想到过去,但我认为没有一个明确的类比。比如说,“这是互联网的延续”、“这是移动互联网的延续”或者“这就像应用商店”。我认为它是一些全新的东西。那么,你希望如何与 AI 互动呢?是通过一个网站来中介你与其他所有事物的互动吗?我不确定。

因为 AI 的意义之一是将机器带得更接近人类,而不是你要强迫自己去思考:“哦,那里有一个 URL,我得去访问那个网站。”其实,机器应该直接按照你的需求来做,甚至主动地去思考你可能想要什么并为你去做。我认为这种范式的转变,可能会改变我们对入口点和机会的看法。所以我认为这里有非常大的发展空间,我并不确定是否可能通过一个门户来实现与所有事物的互动。

从被动工具到主动伙伴:AI自主性的未来

主持人

我想继续问你一个问题。你认为我们离 AI 能够预测我大多数需求的那一天还有多远?当 ChatGPT 首次发布时,它是一个非常被动的工具。我给它提示,它会返回相应的内容。现在,像 Pulse 这样的功能开始变得更加主动。你如何看待在未来24个月里,AI 从反应性到主动性之间的比率变化?

Greg Brockman

我看到主动性将变得更加重要。比如,你给 AI 一个小任务,它可能会花一天、一周、一个月的时间来思考。我们的目标是建立能够在一年、甚至十年内主动思考的 AI。这就像人类一样。

主持人

这是否意味着在这段时间内完全没有人工干预?

Greg Brockman

我觉得有点像人类解决莫斯定理的过程。比如说,安德鲁·怀尔斯花了十年时间基本上自己解决了这个问题,虽然他并不是完全没有和人类互动,但他大部分时间是独立思考的。这也是我们想要达到的目标。

我们希望 AI 能够帮助我们解决宏大的问题。能够有 AI 自主去做生产性工作,而不需要我们不断地进行微观管理。这对人类来说很痛苦,对 AI 来说也是如此。我们希望建立这样一个世界:你可以选择是否进行微观管理,然而,如果你总是对生产性的人类进行微观管理,他们很可能会很快感到不快。所以,我认为这种转变将彻底改变工作方式,你将能够真正选择自己想花时间去做的事情。

主持人

我看到很多关于 AI 能够独立思考多少小时的讨论。通常,它可以自主思考很多小时。那么,你如何看待 AI 能够自主思考的持续时间与它在这段时间内能完成的任务之间的权衡?比如,如果它花了 30 小时才完成“1+1”的计算,这显然与解决癌症问题的复杂性不同。你是如何看待在给定时间窗口内的智能压缩与延长时间窗口之间的权衡?

Greg Brockman

是的,我觉得这是一个很好的问题,而且很容易出现一些看似有意义的标准,但实际上可能会误导你。正如你所说的,某些问题需要更多的思考、更强的计算能力和更多的计算资源。你真正想要的是一个能够高效地去思考一天的 AI,解决这些复杂的问题。但如果我们能轻松解决它,那就太好了。

主持人

对,像十个土星那样。

Greg Brockman

如果能做到那样,当然很好。我觉得这些问题是两个不同的维度,重要的是我们要在这两个维度上持续推动。

主持人

那好,考虑到这个问题,Codex 能够完全自主思考多久呢?目前的记录是多少?

Greg Brockman

实际上,我并不知道具体的记录是什么。我想我们曾经发布过相关数据。我知道有一些人报告说,Codex 已经能够独立思考七个小时左右,但我不确定这个是不是极限。你可以在网上找到相关的信息。我的意思是,现在我们已经能够在一些有趣的问题上投入大量的计算资源了。

Sora2为何成为一个社交产品?

主持人

让我们来聊聊 Sora 2。我想我团队的一些成员可能有点上瘾了,使用起来真的非常好。你们在开发这个新模型时,从 Sora 1 到 Sora 2,你们为什么决定把它做成一个社交体验,而不是像 Sora 1 那样,以更传统的方式发布和使用?

Greg Brockman

我们通常在思考要构建哪些功能时,主要是看模型的能力,这也是我们最终推出 ChatGPT 的原因。我记得当时我们在进行聊天功能的基础设施开发,而后推出了 GPT-4。

那时我们做了第一个训练,并且我们当时只是做指令跟随,即使用一组数据集,模型接收一个问题并提供回答。我记得当时我尝试过另一个方法:给模型提供另一个问题,这个问题的答案依赖于前一个问题的上下文。模型应该能理解并利用这个信息,但实际上它没有做到。

你会想:“哇,这个模型很聪明!它能够进行这种推理。”它显然想成为一个聊天模型,技术已经发展到应该将它作为聊天系统发布的地步。

对于 Sora 2,确实有一些相似的感觉,尤其是在思考模型的优缺点、它能做什么以及它的新颖性方面。因此,我们有很多方向可以走,仍然有许多未走的路。就我个人来说,任何一个接口,任何后期训练的模型,都会让人觉得稍显遗憾,因为你实际上缩小了原始模型的能力范围。原始的基础模型非常有趣,它们很难使用,但其中蕴藏着无穷的可能性。

主持人

我能理解,你们在决策时背后一定有很多考虑。

Greg Brockman

我认为这点外界并不完全理解,这让我感到有些惋惜,因为我们曾经发布过基础模型。比如 GPT-3 那时就是一个基础模型,非常完美,但非常难用。

你用过 GPT-3 吗?那时你需要提供六个任务示例,模型才会知道如何回答。

主持人

我明白了,原来这是模型处于基础阶段,而不是它经历过多次迭代后变得更好。

Greg Brockman

是的,你应该这么理解。这些基础模型,我们训练它们做的是“下一个步骤预测”,它们几乎在观察人类的思维、行为,以及所有公开的数据。

它就是在说,给定这个前缀,接下来是什么?接下来是什么?在推理时,它就像是从某个公开数据中提取出一个文档,并询问:“接下来是什么?”

然后,你需要考虑如何将查询格式化成一种在自然发生的分布中能出现的方式。于是就发现了这样一种模式,如果我有一个问题和答案,然后再提供另一个问题和答案,模型会知道接下来应该是一个答案。但如果只有问题,那接下来可能是另一个问题。

这就像是在引导 AI 进行角色扮演,让它觉得自己正处于某个合理的文档中,且符合训练数据的分布。

然而,这么做非常难用,用户体验非常差,产品并不好用,且我们无法控制它表达出来的行为和价值观。它有点像一个人,通过观察这个世界积累知识,拥有对一切的理解。有人曾经比喻说,基础模型更像是在训练人类而不是一个机器人。它包罗万象,拥有所有的价值观、世界观。

所以,当你问它如何回应某个特定情况时,基本上人类可能做出的任何回应,它都能做到。如果你想让模型专注于一组一致的价值观,那么就需要有其他步骤来引导它。这就是后期训练的意义。后期训练的目的是将这块“原始智能”进行精炼,最终形成一个更加一致的个性或行为模式。

主持人

这是否意味着决定将其做成更社交化的产品是在后期训练之前做出的?还是说,你们发现它在模仿方面有特别的天赋?

Greg Brockman

这个过程其实是一个迭代循环:你首先拿到基础模型,看看这个模型如何表现。然后你会尝试给它不同的提示,看到某些反应时会觉得:“哦,这个真有趣!如果它能在这个任务上可靠地工作该多好!”你不需要做很多额外的工作。

基础模型就像是世界上最好的原型引擎,但它们并不可靠。因为要找到合适的提示让模型完成你想要的任务是非常困难的。这实际上是一个沟通问题,之后的后期训练就是为了更好地进行这种沟通。

角色扮演的必然:AI形象授权的未来趋势

主持人

你的“角色”是否公开?

Greg Brockman

我的角色目前并没有公开。

主持人

我把我的角色公开了。我记得 Sam Altman 也提到过,实际上,允许别人操控自己的形象竟然让人出奇地舒适。你觉得如何?

Greg Brockman

确实挺有趣的。老实说,关于我的“角色”状态并没有想太多,因为我觉得六个月后,无论我们做什么,肯定会有其他公司发布一种允许你做“角色扮演”的视频模型,而且没有限制。所以我觉得我们正朝着一个这样的世界前进,那时我们的所有授权都会变成“角色扮演”。

我觉得我们站在这个技术前沿的部分意义就在于,让更多人理解这项技术的未来发展方向,并尽量以一种有益的方式发布它。你可以从我们的选择中看到这一点,但我们也不认为我们能完全控制这项技术,因为我们并不是唯一在建设它的公司。

世界模型之争:语言模型能否通向AGI?

主持人

 Sora 2,它是一个世界模型,能够模拟世界。杨立昆(Yann LeCun)曾经说过,语言模型不足以实现 AGI,因为仅靠语言无法构建世界模型。你同意这个观点吗?为什么同意或者不同意?世界模型在 AI 和 AGI 的发展中扮演着怎样的角色?

Greg Brockman

我喜欢从过去五年、十年的 AI 进展中汲取经验,看看我们已经通过实验证据证明了什么。我认为语言模型缺乏世界模型。

语言模型虽然能处理书面语言中的信息,但它们并没有构建一个完整的世界模型。顺便说一下,这是一个长期存在的争论。这不是近十年的事,而是有几十年的历史了。我的意思是,我们本来是无法预测 GPT-4 能做的很多事的。你可以问它一些问题,比如:“我把水瓶放在桌子上,然后拧开瓶盖,再把瓶子放到桌子下面,瓶盖在哪里?”你觉得它能回答这个问题吗?

主持人

我曾经有个测试,“杯子里有一颗弹珠,把杯子从桌子上拿起来,弹珠会在哪里?”如果模型很聪明,它应该知道弹珠仍然在桌子上。我记得GPT-3.5回答不出来,GPT-4能回答正确,GPT-4o及之后的模型都能做到。

Greg Brockman

对,即使它不能完美地解决一些复杂的任务,但它展示了令人印象深刻的进步。比如,GPT-4 已经能够在一些高级任务上取得不错的表现,逐渐走向突破。它的表现让人感到有一个上升的趋势。

我觉得现在很容易陷入语义上的辩论:比如,什么是“理解”?这些模型真的是在“理解”还是只是在模拟理解?这些词到底意味着什么呢?我并不确定。但我知道的是,当你给我看一个评估,证明这些任务曾被认为对模型来说几乎不可能完成,但现在它们能成功地完成时,那才是最有说服力的。

主持人

这就像 Sam Altman 之前说的,智能其实就是预测,预测即是智能。而这似乎也支持一个类似的观点:大语言模型实际上能实现 AGI。

人类的工作会被AI替代吗?

主持人

老实说我想问一下,我的工作会有危险吗?你知道,Mr. Beast 说 AI 会威胁到内容创作者的生计,现在这正是我的工作。我应该担心吗?你怎么看?

Greg Brockman

AI 将改变很多工作。现在很多人从事的工作可能会在未来发生巨大的变化,要么完全变得无法识别,要么根本不存在。但也会出现我们现在想不到的新工作机会。

这些新工作会是什么样子?它们的形态如何?我们该如何看待这些变化?我认为,在 AI 革命的过程中,我们将改变社会契约的基本构成。

我认为我们会进入一个“丰盈”的世界。一个即使你不从事经济性工作,也能享有极高生活质量的世界,因为有太多东西可以获得。如果你努力拼搏,参与竞争,追求地位,这个世界会提供更多机会,更多可以建设的东西,更多有价值的事物。坦白说,我的答案是:没人能准确知道 AI 事件视界的另一端会是什么样子,但我知道,它肯定会比我们现在能想象的更加奇特和令人愉悦。

主持人

我刚刚开始我的工作,所以我希望能够保持现状。

Greg Brockman

我认为,在 AI 的变化中,有一些东西是人类联系的基本元素,不会轻易改变。比如人类的情感联系,这对于 AI 来说是非常有趣的。我也认为,像技工、管道工、电工这样的人才是目前已经很短缺的,AI 要去代替这些领域是非常困难的,因为这些领域需要更多的实际操作能力,而 AI 很难在这些领域真正创造价值。

OpenAI潜在的平台风险

主持人

让我们谈谈 Codex 和 OpenAI 发布的其他产品。你知道我们现在在一个开发者活动上,房间里坐满了开发者。你宣布了 Agent Kit。那么,开发者在 OpenAI 平台上构建应用时,应该如何看待潜在的平台风险?我相信你们在内部也有考虑过这个问题。

有个流行的说法是,每次 OpenAI 举办开发者日,都会有一千家初创公司死掉。虽然我不相信这种说法,但我想听听你对此的看法。

Greg Brockman

是的,我们确实经常被问到这个问题。我们也经常在思考这个问题。我们最终希望帮助世界向AI优先进行经济转型,而这种转型应该让每个人都受益。

但是我们做不到这一点,绝对做不到。我们确实需要和开发者合作。我们需要有人在我们的平台上进行构建,探索如何将这项技术与现实世界连接起来。

我们必须做出选择,因为我们是一家公司,虽然我们现在有几千人,听起来很多,但如果你看整个经济的规模,我们其实很小。我们必须考虑到不同领域的专业知识和在每个领域做得好的难度。

所以我们必须非常挑剔。我们真正努力思考的是,哪些领域和我们现有的专长有协同效应,或者是我们能看到我们能够发挥价值的地方。比如编程,这是我们非常擅长的领域。

此外,如果我们在编程上做得好,也能加速我们自己的工作。所以我认为,我们在考虑如何最大化为尽可能多的人带来价值的同时,也会在我们能够深耕的特定领域中,尽力做得更好。

主持人

你认为代码是 AGI 的语言吗?

Greg Brockman

这个问题很有趣。我一直认为,自然语言将是 AGI 的语言。我认为,如果 AI 之间互相交流,可能会有一种稍微优化过的“噪音英语”之类的东西。如果你看看我们今年在国际数学奥林匹克(IMO)中获得金牌的数学证明,你会看到这些证明其实非常易读,虽然它们非常简洁,但它们实际上是 AI 探索出来的一种有趣的语言。

人类未来的角色:从“提示工程师”到目标设定者

主持人

人类还会在这个过程中占有一席之地吗?我看到这些模型在不断改进,但目前人类仍然在任务开始时提供提示,并且在最终进行验证。我认为人类在这个过程中的角色可能会逐渐缩小,但我们现在依然有一席之地。你觉得这种情况会持续多久?会永远这样下去吗?你如何看待这一切?

Greg Brockman

我确实认为,这项技术的根本目的是让人类受益,实际上不仅仅是人类,所有能体验到快乐和享受的生命体,AI 应该能提升所有人的福祉。所以问题是,这意味着什么?

我不认为我们希望生活在一个这样的世界里:人类必须花费精力去设计提示语,编写代码来做上下文工程这些机械化的细节。对我来说,这些细节看起来像是遗留下来的东西,它们代表的是计算机过去的模样,而不是它们应该具备的未来样态。

我想要的,以及我认为世界应该想要的,是那种让机器更加贴近人类、理解人类目标并帮助实现这些目标的 AI 工具。我认为这才是关键。我们要确保 AI 能够提升人类的生活质量,这是 OpenAI 的核心使命,并且我们正在努力推动技术朝这个方向发展。

软件的未来:AI生成一切,人类专注创意与审美

主持人

好。作为一个经常思考编程的人,你显然在构建自然语言编程语言方面花了很多时间。几个月前,我曾在面对面交流时问过你这个问题,你是否认为软件将来会完全由 AI 生成,甚至从操作系统级别到屏幕上看到的每一个像素,都会实时生成,假设我们能解决一致性的问题?

Greg Brockman

我认为是的,这会非常酷。想象一下,完全生成的用户界面是什么样子,实际上是让人有点脑洞大开的。这就像是一个实时动态的过程,你在做一些事情,像是有没有按钮,按钮在哪儿,最自然的界面是什么样子。你开始意识到,我们构建的许多界面其实是围绕现有操作系统的习惯和偏好而建的。

但如果你能从零开始重新构想,去掉所有遗留的代码,没有文件夹、文件这样的概念,那会是什么样子呢?我其实并不完全知道答案,但我敢肯定,结果会让人非常惊讶。

主持人

让我们稍微想象一下那个未来。在那个世界里,还会有开发者吗?还会有应用吗?

Greg Brockman

拿一个像 Sora 这样的例子来说。顺便提一下,Sora 对我来说非常有趣,因为我记得看过我们做的一个宣传视频,视频里 Bill 开着雪地摩托,摘下了头盔,我当时想:“哇,Bill 真的是雪地摩托高手啊。” 然后我突然意识到他并没有做这件事。你会发现人类的参与方式是非常不同的。它跟电影里那种 Bill 亲自去滑雪的场景完全不同,但他依然参与其中,因为他在思考创意过程,而这就是他作为一个表演者的体现。

就像是他通过这种方式出现在视频中,你制作的一个 Sora 视频里有他作为表演者的身影,分享出去后,你感到很兴奋。而你感到兴奋的这一点也让我感到兴奋。实际上,我们从今年早些时候的经验中学到了这一点。当我们的图像生成技术(Image Gen)爆火时,大家开始生成自己和家人的肖像。

我们意识到,如果你只是生成一张没有任何实际背景的图像,比如一只狗变成酷炫的动漫风格,没有人会在意,反而很无聊。这不吸引人。可一旦加入了某些人性化的元素,一些你可以关联的东西,大家就会开始感兴趣了。

我认为,当你看到像你孩子的照片一样的生成图像时,AI 会通过一些有趣的处理,将它带入不同的创作维度,这样就能与观众建立联系。而且,我想这也可能会影响软件的开发方式,未来人们会通过这种方式构建应用。想象一下,你有一个动态系统,AI 扮演开发者的角色,你将任务交给它,它为你编写出完美的代码或创建一个完全生成的用户界面,然后你将其发布到 ChatGPT 应用商店里。

主持人

这真的听起来像是未来将会更侧重于创造一个优质的人工体验,更重要的是,未来的关键将不再是那些硬技术,而是如何审美地进行这种体验设计,对吗?

Greg Brockman

是的,我也这样认为。我认为确实有一些机械性技能会转化,而且我们看到每一代模型的进步,尝试去探索模型的潜力的人,往往能得到最可靠的结果。但本质上,知道你想要什么、拥有良好的判断力和品味,才是最关键的。

代理电商:点子不新,关键是模型终于能用了

主持人

你曾是 Stripe 的 CTO,最近你还宣布了代理电商协议(Agency Commerce Protocol)。这个想法是你早就有的吗?还是这是最近才在内部发现的:哇,这是一个可以做很多事情的酷点子,让代理能够为我们浏览并进行购买呢?

Greg Brockman

这个领域有一点就是,没有什么新点子。所有这些想法,别人早就想过了,我们也想过很多次。真正的新鲜事物是模型已经足够强大,能够有效利用这些想法。

你可以从插件的推出看到这一点。我们几年前做了插件,但当时的模型并不够强大,插件也用不了太多。模型太复杂,无法正确调用插件。所以今天的模型比之前更可靠得多。可以说,新鲜事物不在于点子本身,而是它在今天变得可行了。

主持人

你会通过 ChatGPT 进行购物吗?我知道 Sam 说他有用。

Greg Brockman

有趣的是,我其实不太购物,所以最近我所有的购物几乎都是通过 ChatGPT 来做的。

AGI是一个持续的过程,而不是终点

主持人

我们可以谈谈未来的事情吗?去年开发者日,我们看到了 GPT-4;现在一年过去了,你们发布了这么多东西。你怎么看待明年(2026)的发展?然后是2030年的开发者日会是什么样子?

Greg Brockman

这是个很难回答的问题,但我确实认为明年我们会有一些令人难以置信的模型。我最期待的里程碑是,我们会有能够解决难题的模型。比如,像2016年 AlphaGo 对围棋的突破一样。那一局第37手的着法,改变了人们对围棋的理解。想象一下这在材料科学、医学领域的应用。

我认为我们将看到这样的真正突破,无论是 AI 本身,还是 AI 在顶级人类专家的帮助下解决问题。我觉得我们会看到这种合作的场景。那么对于开发者来说,这种突破将带来不可估量的价值。

比如,在金融领域,你可以构建出最先进的应用,帮助用户解决他们最棘手的财务问题,虽然这可能不是金融领域的顶级问题,但我们会开始解决这些极其复杂的问题。需要注意的是,这将消耗大量计算资源,所以我们必须确保这些任务对经济有足够的价值,因为否则没有人愿意为这些计算买单。

我觉得我们会不断思考如何将这些技术推向更深远的领域。至于2030年,我认为很难做出预测,但我相信我们会比现在更加接近 AGI。

主持人

那你的 AGI 时间表呢?是否和之前有过调整?

Greg Brockman

我认为 AGI 更像是一个持续的过程,而不是一个终点。最初我认为 AGI 是一个目标,只有完成这个目标才算任务完成,但现在我认为它是一个不断发展的过程。

在某些阶段,AGI 可能已经能够完成与人类相等的经济价值工作,这会是一个重要的里程碑,但这绝对不是结束。

我觉得人们已经开始从 AGI 转向超智能的讨论,或者干脆拒绝所有这些术语,对我来说,这并不重要。真正重要的是,我们能否实现 AI 的进步,能否提升整个经济,并且真正让人们受益。

我相信,AI 将对社会各方面产生深远的影响,而我们在推动这一技术发展时,始终要确保它是为了提升人类福祉,这就是我们 OpenAI 的使命。

本文转载自​​51CTO技术栈​​,作者:听雨

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-10-14 15:19:48修改
收藏
回复
举报
回复
相关推荐