奥特曼警告AI会让数十亿人类工作无意义,否认打造美国版微信,Sora会考虑收费,自曝自己的脸被玩废了

发布于 2025-10-10 20:55
浏览
0收藏

编辑 | 云昭

​出品 | 51CTO技术栈(微信号:blog51cto)

国庆假期期间,OpenAI 可谓赚足了全球的注意力。

先是各种 Sora2 的生成视频刷屏,然后是三天前掌舵者 Sam Altman 在 DevDay2025 主题演讲中高密度发布了许多利好AI开发者的功能和工具,可以说热闹空前。

但这些都不足以用来形容此时此刻 OpenAI 的未来蓝图。

在 DevDay 期间,这位 OpenAI 的掌舵者接受邀请录制了一期播客,主持人跟他进行了一场非常全面的深度脑暴。

访谈中,Altman 分享了自己对于 ChatGPT、Sora 的核心优势和商业模式的考量。他坦承,其实自己一开始也不清楚 ChatGPT 的核心优势是什么,但如今没想到“记忆功能”却成了最大的竞争优势之一。

而谈及Sora的商业模式,他指出现在还为时尚早。主要看Sora的使用场景,如果是信息流,那自然会考虑引入广告,但如果只是分享聊天,群发,那就是另一种商业模式。

而对于AI开发者最看好的 Agentbuilder 工具,Altman 坦言以后真的可以实现 Agent 的无代码革命。

而 Codex 这一类的AI编程智能体以后甚至可以连续运行一周,期间都不需要人类监督和反馈。

对于大洋彼岸很火的一个名词:“workslop”(工作糊料,即看起来挺体面,但实际很糟糕的交付结果),Altman 认为经济会自我纠偏,因为人类本身自己也会产出工作糊料。

OpenAI的版图还有哪些?是要打造美国版微信吗?Altman 一口否认了,他认为微信模式在美国走不通,但的确计划会在 ChatGPT 整合一些新功能。

“如果我们突然把一个「社交型体验」塞进去,会让人感觉很怪。”

“用户对 ChatGPT 的心理预期和他们使用娱乐应用时的状态完全不同,这两种体验放在一起会产生不协调。”

OpenAI 筹划之中的藏货还有多少呢?

访谈中,至少可以探秘出以下几种:

一、ChatGPT 接下来会整合许多有交互能力的功能;

二、Sora 之后会在半年内探索商业付费模式;

三、新的AI硬件方面,AI语音交互将会是一大值得期待的亮点;

四、Agent方面,OpenAI 已经在筹划在法律、金融领域版本的 Codex。   

五、而接下来的 GPT-6 构建的设想,他表示最近发布的新基准“GDPval”会考虑在内,会在后训练中做出相应调整,但大方向不变。

对于 AGI,Altman 认为实现它的时刻,不在于某个分数,而是 AI 真正开始为人类创造新知识时。

临近最后,Altman 还讨论到了未来的工作情况。他指出,在不久的将来,当今经济中发生的 40% 的任务将由人工智能完成。AI 会让数十亿人的工作变得不再是真实的工作。

料还很多,建议大家自行收藏细读。

最看好ChatGPT内置应用

主持人:Sam,非常感谢你来到这里。现在是 2025 年的 DevDay,你能先给我们介绍一下这次发布的内容,以及你个人最期待的部分吗?

Sam:其实我对所有内容都很兴奋。不过要我挑一个,我想说——ChatGPT 内置应用(Apps in ChatGPT)。这其实是我很早就想做的事。刚才我和几位开发者聊了聊他们用 Agent Builder(或 Agent Kit)做的项目,真的有不少我自己都想立刻用的。如果只能选一个,那就是 Apps in ChatGPT。

主持人:我也喜欢 Agent Builder,不过 Apps in ChatGPT 的确很酷。我们可以从这里聊起。顺便说一句,恭喜你们现在 ChatGPT 已经有 8 亿周活用户了。

Sam:谢谢,这数字确实令人震惊。ChatGPT 正在成为一个新的“分发平台”。

主持人:那开发者或创业者要如何利用这次发布的 App SDK,在 ChatGPT 之上构建产品?

Sam:我认为这还需要一段探索期,去观察大家最终会怎么用这些 App。比如,人们会直接叫出 App 的名字吗?还是希望 ChatGPT 能自动记住他们常用的 App 并主动推荐?这些新的分发机制需要开发者自己去摸索。但每次我们把东西交给世界时,总会被实际使用方式所惊喜到。

主持人:我听说你们今天也会发布文档,帮助开发者提高被推荐的几率?

Sam:是的,不过要说明的是,这些都是全新的产品,变化会很快,我们也会边学边改。但没错,文档今天就会放出。

Agent Builder 与 GPT Builder 的演进

主持人:回到第一次 DevDay,两年前你们发布了 GPT Builder,当时引起了不小的轰动。我记得自己是最早做出公开 GPT 的开发者之一。这次的 Agent Builder,相比当年,有哪些突破?

Sam:最大的不同是模型能力的跃升。这 22、23 个月的进步实在太惊人了。除此之外,我们也学到了很多关于人们如何想要构建 agent 的经验,包括他们希望能在 ChatGPT 之外的服务上构建。让我印象最深的是,现在你能用一个可视化界面,上传几个文件、连接数据源、定义目标,几分钟内就能部署出一个能做复杂任务的 agent。

昨天彩排时我看完整个流程,真有点震撼——像 Codex、Agent Kit 这样的工具,让“构建软件”的速度发生了地壳级的变化。我现在还没完全理解这会带来多大的影响。

AI Agent 的低代码革命

主持人:如果我理解没错,现在通过 Agent Builder 已经可以实现零代码构建 agent?

Sam:完全可以。当然,如果你懂一点编程,会做得更细致更好;但一般的知识型工作者,现在也能自己做 agent。

主持人:那这基本就是“AI Agent 的无代码革命”了。

Sam:没错。你会写一点代码能做更多,但入门门槛已经非常低。我在想这会对下一波创业者、企业会有什么影响。昨天我看了 Romain 的现场演示,真是震撼——这些东西在一年前可能要花很久才能做出来,现在几乎能“现场生成”。感觉创意的产生速度都跟不上实现的速度了。我还不能完全判断这意味着什么,但显然,软件的生产速度将大幅提升,而从实验到改进的周期会越来越短。我们能更快验证想法、筛选出好点子——只是我还不知道这会改变哪些更大的东西。

“零人公司”的赌局

主持人:我听说你和朋友之间有个赌局,赌什么时候会出现第一个由 agent 运营的十亿美元公司?Agent Builder 能把我们带到那个阶段吗?

Sam Altman:还没那么快。我们以前的赌是“第一个一人公司”何时出现;现在大家开始猜“零人公司”要多久。我们还没正式开盘,但确实很多人在讨论。我觉得至少要几年时间。不过,仅仅是能认真地讨论“零人公司”这个概念,就已经很不可思议了。

让 Agent 一周不出错地工作,需要什么

主持人:很多人都说这是“Agent 元年”,但目前的 agent 还需要大量人工监督。你觉得什么时候才能出现能连续工作一周都不需要反馈的 agent?

Sam:我觉得 Codex 离那不远了——这话听起来都像科幻。或许 2025 年内还达不到,但我们今天已经看到它能完成“一天级任务”。进步速度快得惊人。我很少会觉得“AI 进步太快”,但在观察 Codex 任务持续时长的提升时,确实有这种感觉。我猜,能持续工作一周的 agent,不会太远。

主持人:要实现那一步,还缺什么技术?

Sam:更聪明的模型、更长的上下文、更好的记忆系统。

世界变了,但核心优势的类型没变

主持人:现在有了这一切工具,如果让 20 岁、刚从斯坦福辍学的你穿越到今天,你会选择做什么?又会避免做什么?

Sam:我前几天其实刚想过这个问题。我真有点羡慕现在的年轻一代。他们面前的机会空间巨大到难以想象。我已经很多年没能空出一大段时间去思考“我想做什么项目”,但我知道,如果我现在 20 岁,我一定会有一堆想做的酷东西。今天跟这么多开发者聊天,看到他们在构建的那些新东西——真的很让人振奋。

主持人:有没有什么建议,能帮助开发者在构建这些产品时,找到属于自己的“独特优势”?比如分发渠道、数据壁垒,或者某种特定工作流?

Sam:这是个很难抽象回答的问题。我认为最好的独特优势,往往是独属于你自己、你必须亲自摸索出来的东西。我们在 OpenAI 身上也花了极大的努力去找出那种差异化优势。但总体来说,这不是一个“通用解”。真正重要的优势,往往只在你所在的时机、市场定位、技术方向下才成立。而这种探索,本身就构成了创业带来的独特价值。

如果要说一条普遍适用的经验,我会说——边做边找,策略是从战术中长出来的。我很喜欢一句商业名言:“让战术演变成战略。”你可以从一些“眼下有效的小事”开始做,而在不断尝试的过程中,往往会自然衍生出一个更长远的战略方向。

举个例子,如果你在 ChatGPT 推出时问我:“你们未来的核心优势会是什么?”我可能会回答:“不知道。”我可以猜一堆,但不会有信心。结果现在看来,“记忆功能”成了我们最大的竞争优势之一——它让用户愿意长期留在 ChatGPT。而当初我们完全没想到这一点。所以很多时候,你只是不断构建功能,然后在某个瞬间突然意识到:“哦,这东西居然能成为我们的长期壁垒。”

主持人:那有没有一些线索,提示我们现在该往哪些“优势方向”去构建,比如为 GPT-6 时代提前布局?

Sam:那就得你自己去摸索了(笑)。我很乐意哪天和你一起头脑风暴一下,因为那会挺有趣的。但老实说,OpenAI 已经占据了我全部的脑容量,我都没法再认真去想怎么做新创业项目了——这点有点遗憾。虽然世界变了,但企业的核心优势类型其实没怎么变:网络效应、品牌与营销、用户数据、市场网络效应……这些仍然是竞争力的基础。不过,建立这些优势的新“战术”,会随着时代变化而更新。

GPT-5 vs Claude:GDPval 测试结果

主持人:OpenAI 最近发布了一个名为 GDPval 的新基准,用来衡量模型在各种知识型工作中执行“经济上有价值任务”的能力。让我惊讶的是,GPT-5 的表现排在 Claude Opus 之后,而你们依然选择公开这个结果。你本人对此意外吗?

Sam:首先,如果我们因为排名第二就不发布,那才真糟糕。我们会在某些领域最好,也会在别的地方被超越。要建立一个能持续进步的文化,关键是坦然承认别人暂时做得更好。我认为 Anthropic 在理解企业级使用场景、以及让模型输出更优雅的结构化结果方面,做得非常出色。所以我并不惊讶,只是被激励得想更快追上。

主持人:这次的评测结果,会改变你们构建 GPT-6 的方式吗?

Sam:可能会在后训练阶段带来一些调整,但总体战略不会因此改变。

我们何时真正实现 AGI?

主持人:你最近提过,你对 AGI 的定义是“在大多数经济上有价值的任务中超越人类”。那 GDPval 的哪个分数会让你说:“我们已经实现了 AGI”?

Sam:我一直在思考这个问题。首先——就像很多人一样,我对 AGI 有多个定义。离它越近,这个概念反而越模糊。不过,对我来说最重要的一点,也是最让我意外的是——我们终于开始看到模型能进行“原创发现”。比如,它能扩展人类的知识边界。

现在在 X(Twitter)上,你会看到越来越多科学家发帖说:模型提出了一个新的假设、发现了一个小规律、或者想出一种新的研究思路。这些都还非常微小,我不想夸大,但也不能忽视它的意义——我们正处在 AI 发现能力的起点。而我们有理由相信,在未来几个月乃至几年内,这方面会迎来加速。这,可能是我最在乎的“AGI 时刻”。它不是某个分数,而是当 AI 真正开始为人类创造新知识时。

AI 将要解决的科学突破

主持人:有没有什么具体的科学突破,是你特别期待 AI 能去解决或推动的?

Sam:当然,治愈疾病、发现新的物理定律——那种事情会非常令人振奋。但其实,眼下正在发生的一些“小事”,比如数学领域的进展,也让我感觉意义非凡。当 GPT-4 发布时,我记得很多人还在争论“图灵测试”的定义——但大众心中的“图灵测试”一直像是一个遥不可及的目标。然而突然之间,它就被跨越了。而社会的反应基本是——毫无波澜。大家惊呼两周,然后立刻抱怨:“这玩意怎么不够快?”、“怎么不够聪明?”、“能不能再好一点?” 这其实挺能说明人性的:那个长期以来代表 AI 极限的“考验”被我们一瞬间甩在身后,而人类几乎瞬间适应了。我觉得接下来也会出现类似的情况——我们会非常快地习惯 AI 进行科学发现。这有点像 Waymo(无人驾驶):第一次上车确实怪异,但那种感觉只持续三分钟,然后就变得理所当然了。

从工作糊料到同意自己形象在Sora上对外公开

主持人:我想插一句。最近斯坦福有个研究,提出一个新词——“工作糊料(workslop)”。简单解释一下,就是“看起来很体面、其实低质量”的产出。他们调查了一千多位办公室职员,41% 的人说最近一个月遇到过这种来自同事的“AI 糊料”。平均每次清理需要 1 小时 56 分钟,每名员工每月因此损失约 186 美元。所以问题是:AI 能让一部分人效率提升 10 倍,那我们在教育或新人培训中缺了什么?为什么很多人不知道什么时候该用 AI,什么时候不该用?

Sam:首先得说,很多人类自己也在制造“工作糊料”。这不是 AI 独有的现象——比如那些只制造工作量的邮件,或者毫无意义的会议。其实从很久以前开始,就存在两类人:一种人用工具提升效率;另一种人用工具给组织制造阻力。AI 也会一样——不会例外。但经济会自我纠偏。那些能用工具提高产出的人和公司,会更有能力塑造未来;反之,那些拖慢效率的,会被边缘化。当然,每种新工具都有学习曲线,但这次我认为会非常快。

主持人:那 OpenAI 是否在教育或培训上,做些什么来帮助人们更好地建立“AI 直觉”?

Sam:有的,我们确实在做。但人们总会以他们自己的方式使用工具。我学到的一点是——你可以做出极好的教育内容、培训课程,但人们一旦发现他们能让模型“用海盗口音说话”,他们就会去玩这个。不过我们确实在努力,制作大量帮助人们把 AI 整合进日常工作流的内容。在某些场景下,比如 Codex,企业的采用非常快——从试用到深度融合,只需要几天或几周。

主持人:说到“糊料”,你现在也是世界上第一个被 Sora 做成病毒级 meme 的 CEO。网上那些把你“换脸成 GPU 盗贼”的视频,会让你感到害怕吗?

Sam:其实比我预想的没那么怪异。很奇怪的是——看一个视频会觉得不适,但连刷一百个反而没那么怪。我记得那时我正在环球出差,有个团队成员发消息问我:“我们能不能把你的 cameo(出镜形象)开放访问?”我当时八秒内就回复“可以”,其实那应该是个值得深思的问题。但我想,既然我们在做这项新技术,我自己都不愿去尝试,那就太说不过去了。结果我决定开放。之后在飞机上我想,这可能会挺奇怪的。但上线后我醒来一看,整个社交媒体都是 meme。我笑了。真的就是那种 Waymo 式的体验——前 3 分钟有点怪,然后就完全习惯了。唯一让我担心的,是今天早上有几家公司发布了“去水印工具”。如果别人能把 Sora 的水印去掉,用我的形象发视频,这可能会影响我的个人品牌。那我为什么还要开放自己的 cameo 呢?

主持人:所以你的意思是,提前发布带有防护的版本,其实是为了帮助社会提前适应?

Sam:没错。我们经常会预见到某项技术迟早会被广泛开放——几个月或几年后,任何人都能用开源模型生成视频,甚至可以让“你”做任何事。社会终会适应,但我们希望通过提前发布 + 加入防护,让社会和技术能够共同进化。文本时代我们已经这么做过了。视频更难,因为它带来的情绪冲击更强。但最终我们会学会适应。未来网上会充斥着各种“假视频”,很多都没有水印、也无法追溯来源。这种情况一定会发生。让社会对它提前“免疫”,是有价值的。

主持人:那最终目标是做出“真假难辨”的 AI 视频吗?

Sam:最终目标还是 AGI(通用人工智能)。高质量视频只是其中的重要一步。它能推动空间推理、世界模型学习,甚至是机器人研究的进展。我认为“生成式视频”是好事。我不希望未来人机交互只局限于文本。我很期待一个新形态的界面——你能在实时视频流中与系统互动,它会动态生成属于你的界面与体验。所以,是的,高质量视频是通向真正 AGI 的宝贵一步。

考虑Sora视频生成付费

主持人:你们上周五发布了一篇博客,说正在考虑为允许自己肖像 cameo(客串)的视频创作者推出分成机制。能透露下具体怎么运作吗?

Sam:就像很多新产品一样——一旦上线,你总会发现用户的使用方式和我们想象的不一样。我们原本以为,Cameo 主要会由少数创作者制作一些很酷、精致、有创意的视频内容,然后被更大范围的观众观看和分享。确实有一些这样的案例,但我们也看到大量用户在为自己、或几个朋友制作视频,在群聊中互相分享。我还不确定这是不是一时的新鲜感,但如果这种使用方式真的能持续下去,那它将彻底改变我们对计算量与用户参与度之间关系的模型。

未来,我们可能会允许用户为视频生成付费。比如你想一天做 100 个表情包视频发给朋友,那就可以直接付费生成;如果视频里出现某位名人,而那位名人也同意授权,那他们也可以按生成次数获得分成。当然,现在这个产品才上线六天,所以我不敢太早下定论——也许这些用法只是阶段性的热度。但至少目前看,这确实是一个非常大的使用场景。

主持人:你们有没有考虑过在 Sora 应用里加入广告?

Sam Altman:目前还没有,但那确实是一个值得探索的方向——虽然也挺让人害怕的(笑)。和 ChatGPT 不同,ChatGPT 的商业模式是订阅制,但如果 Sora 未来的主要使用场景是用户刷视频流、看搞笑或美学内容,那广告模型会更自然。但如果用户主要是在私信或群聊中分享视频(DM 模式),那可能就该采用不同的商业逻辑。乐观一点的话,我希望在今年年底前(或者保守点,明年一季度)我们能看清产品真正的使用形态,到那时就能决定合适的商业模式。我个人认为——按视频生成次数收费是合理的尝试,其他想法还得看产品演化方向再定。

工作的未来:被 AI 改写的十亿个岗位

主持人:我常用“农民的比喻”来形容现在的变革。如果你在 50 年前告诉一个农民:未来会有个叫“互联网”的东西,能创造十亿个新岗位——比如程序员、营销人员、内容创作者——他一定不会相信。现在我们进入“智能时代”,很多人认为也会有大量新岗位诞生。但不同的是:互联网时代是从零创造新岗位,而智能时代则可能先影响现有的知识型岗位,然后才逐步催生新的机会。这点你会担心吗?

Sam:非常担心。你提到了一个让我又稍微放心、又更焦虑的问题。那位农民,不仅不会相信未来的事情,他可能还会觉得我们今天的工作——比如你采访我、我做科技公司——根本不算“真正的工作”。在他看来,“真正的工作”是种地、养娃、维持生命。我们这些现代人,只是在玩“虚拟的游戏”,让自己感觉重要而已。也许再过几十年,未来的人回头看我们现在的工作,也会说:“那不算真正的工作,只是比游戏稍微认真一点。”

所以我完全能想象——“工作”这个概念会发生深刻的变化。人们依然会找到意义,但“有意义的事情”未必还像现在这样和“劳动”绑定。我认为社会契约也会随之重构,尤其是如果这场转型来的很快的话。短期确实会有阵痛,但我依然相信——人类的创造欲和行动欲是不会消失的。我们总会找到值得去做的新事情。

AGI 之后:人类会去哪里?

主持人:那在 AGI 之后,你觉得人类会把注意力转向什么?太空?脑机接口?

Sam:我希望是一切方向都能同时展开。太空探索当然很酷,但也许你、我,或其他人会被别的事情吸引。我希望未来的世界是一块广阔无边的可能性画布,每个人都能在上面创造属于自己的新事物。

全球 AI 安全框架

主持人:如果你明天可以制定一条全球政策,会是什么?

Sam:要把这个问题缩小到一个具体点其实挺难的。但我脑海里反复浮现的,是关于 AI 监管的那场大辩论:到底这是好事还是坏事?会不会反而让大公司获益太多?我能理解各方的观点。不过我确实认为,当我们进入「超强模型」的阶段时,应该有一个全球性的框架来降低灾难性风险——至少针对最前沿的那部分,要有一套机制去思考、评估最严重的安全问题。如果能有一个全球政策来处理这些问题,那会是一件好事。

主持人:你能大概描述一下这个框架的轮廓吗?

Sam:我觉得可以先从一个完善的测试体系开始。

否认打造美国版微信

主持人:还有一点我想谈的是微信。在中国,它几乎是一款「万能应用」——可以购物、刷社交媒体、聊天,几乎所有功能都集中在里面。现在看起来,ChatGPT 也有购物、网页搜索、Sora 等等新功能。你是不是在尝试打造一个「美国版微信」?

Sam:不是。有很多原因让我认为那种模式在美国市场行不通。我们不是要做「万能 App」,而是想打造一个真正出色的 AI 超级助手。

主持人:那为什么要把功能分开发布?比如 Sora 为什么是单独的 App,而不是直接整合进 ChatGPT?

Sam:因为 ChatGPT 对很多人来说,已经成了他们最个人化的账户。如果我们突然把一个「社交型体验」塞进去,会让人感觉很怪。当然,有一些功能比如消息协作是合理的,因为用户确实会互相分享内容、一起创作。但用户对 ChatGPT 的心理预期和他们使用娱乐应用时的状态完全不同,这两种体验放在一起会产生不协调。不过我们确实会把很多功能整合进 ChatGPT,只是会分阶段来做。

关于 Agent 构建:看法法律、金融版本的Codex

主持人:你觉得有哪些特别重要或有潜力的智能体(Agent)是你最期待看到的?

Sam:我会参考 Codex 的影响力去思考其他行业。比如,能不能有一个「法律版 Codex」、一个「金融建模版 Codex」?现在已经有很棒的创业公司在尝试这些方向。但如果技术继续成熟,能让这些行业的 AI 体验像 Codex 之于编程那样强大,那将是我最兴奋的事情。我甚至能想象未来,一个人就能通过与一组智能体的对话来创建一家公司。目前的 Agent Builder、Agent Kit 还没到那个水平,但我能看到从现在到那一步的路径。

我们低估了语音设备

主持人:你在主题演讲里提到,语音可能是 AI 或 Agent 的「最终交互界面」,能展开讲讲吗?

Sam:我不会说它是最终界面,因为在很多场景下语音并不合适。比如你在地铁上,对着手机讲话就挺尴尬的。但在很多时候,语音又是最自然的接口。广义上说,「语言」才是核心交互方式,有时是语音,有时是打字。我们曾经低估了语音设备。大家喜欢拿智能音箱开玩笑,但其实很多人真的在用,也很喜欢它们——只是它们的 AI 水平还不够好,生态也不完善。如果未来你能直接「对设备说话,它就精准执行并不再打扰你」,那才是我真正想用的计算机。

新的 I/O 硬件设备:留足创造空间

主持人:那你们在做的 I/O 设备呢?是否也会以语音为主要交互?

Sam:那还需要一些时间。要在高质量、高规模的前提下打造一种全新的计算机使用方式,我们需要留出足够的创造空间。我们现在确实有一些很让人兴奋的想法,但还没准备好公开讨论。短期内也不会公布,但我们会努力让它「值得等待」。

主持人:好的,这就是我所有的问题了。

Sam:谢谢,能聊得这么深入我也很高兴。

本文转载自​​51CTO技术栈​​,作者:云昭

收藏
回复
举报
回复
相关推荐