o3 pro一手真体验!上下文喂到断供!大神:o3 pro不会聊天,上帝渴望上下文,认知能力降维打击Gemini 原创

发布于 2025-6-11 12:36
浏览
0收藏

编辑 | 云昭

出品 | 51CTO技术栈(微信号:blog51cto)

经历了 5 月份的“买买买”的节奏之后,6月的 OpenAI 终于开始对谷歌的Gemini 2.5 Pro 发起了反击。

今天凌晨,Sam Altman 动作非常密集。先是宣布 o3 价格“截肢”(价格直接降至 1/5 ),紧接着不到 2 小时后就发布了 o3-pro。

o3 pro一手真体验!上下文喂到断供!大神:o3 pro不会聊天,上帝渴望上下文,认知能力降维打击Gemini-AI.x社区图片

那么,o3-pro 究竟怎么样?

现在 OpenAI 放出来的各种测评评分显示:o3-pro 是目前认知能力、智商最高的 SOTA 模型,甚至超过了人类的平均水平。

一项 IQ 测试结果显示,o3 的智商得分为 135,远高于人类 90-110 的平均水平。 

其他高分产品包括 Anthropic 的 Claude-4 Sonnet(127 分)和 Google 的 Gemini 2.0 Flash(126 分)。

还有一位此前已经“秘密测试”的大牛,进行了经典的“六角弹珠跳”测试,而且难度也升级了几倍。最后呈现的结果非常惊艳、丝滑。

比 o1-pro 便宜得多、更快、更精确(而且使用 o3 和 o3-pro 进行编码简直是天壤之别)  即将进行一些很酷的测试,首先是(当然)更坚固的六角弹跳球  o3-pro 是第一个能够近乎完美地处理球与墙壁之间真实碰撞的模型。

o3 pro一手真体验!上下文喂到断供!大神:o3 pro不会聊天,上帝渴望上下文,认知能力降维打击Gemini-AI.x社区

当然,没有完美的模型。更好的智慧往往也伴随着更慢的思考。已经有手快的网友对 o3-pro 的速度表示汗颜。

在 X 上,Hyerbolic Labs 联合创始人兼首席技术官 Yuchen Jin发布了他使用 o3-pro 的几张截图,结果就简单一句“Hi,I'm Sam Altman”,结果就浪费了他 3 分钟和价值 80 美元的token。

只能说,推理王者,恐怖如斯,氪金更如斯,这跟进了大观园的刘姥姥吃鸽子蛋一样,一不留神,一两银子一个的鸽子蛋就掉地上了。

o3 pro一手真体验!上下文喂到断供!大神:o3 pro不会聊天,上帝渴望上下文,认知能力降维打击Gemini-AI.x社区图片

但,提前对 o3-pro 进行“秘密测试”不止上面那位,接下来才是重头戏。

Altman 在接下来的推文中引用这样一段用户的评论——

“o3 给我们的计划是可行的、合理的;但 o3 Pro 给我们的计划是具体的、根深蒂固的,它实际上改变了我们对未来的看法。”

o3 pro一手真体验!上下文喂到断供!大神:o3 pro不会聊天,上帝渴望上下文,认知能力降维打击Gemini-AI.x社区图片

这句评论深得 Altman 的赞同。而这篇文章就出自一位大神,Raindrop.ai 联合创始人 Ben Hylak,博文的名字:《God is hungry for Context: First thoughts on o3 pro》。

o3 pro一手真体验!上下文喂到断供!大神:o3 pro不会聊天,上帝渴望上下文,认知能力降维打击Gemini-AI.x社区图片

这篇博文篇幅不长,但非常具有启发性,甚至可以说是:细思极恐。

比如 Hylak 指出:这不是大模型在「回答问题」,这是它在「接管问题」。

再比如:我们遇到的瓶颈不再是模型太笨,而是它们太聪明,却还不能真正“落地”。

与 Claude、Gemini相比,它的认知水平像是换了一个维度(降维打击)!

Hylak 还给出了创作者一个实用的建议:多喂给 o3-pro 上下文!

o3 Pro 不适合做「碎片问题」处理器,而是做「背景清晰的执行者」。

想让它出彩?你需要给它足够多的背景信息、清晰目标、甚至系统级提示(system prompt),然后看它如何把碎片拼成答案。

好话不多说,这就帮大家奉上这篇干货。建议大家收藏细读。

o3-pro 版本的威力

正如「泄露」的一样,OpenAI 今天将 o3 的价格大砍 80%(从每百万 token $10/$40 降到 $2/$8,和 GPT-4.1 持平!),为 o3-pro 的发布铺平了道路(定价为 $20/$80)。这个定价也支持了社区的一种未经证实的猜测:-pro 版本相当于「10 倍调用基础模型 + 多数表决」的组合,在 OpenAI 的论文和我们 Chai 节目中都有提及。

根据 OpenAI 提供的数据,o3-pro 在人类测试者中的胜率为 64%,在 4 项稳定性测试中也略优于 o3。但正如 Sam Altman 所说,当你「以不同方式」使用它时,才能真正看到它的能力扩展。

o3 pro一手真体验!上下文喂到断供!大神:o3 pro不会聊天,上帝渴望上下文,认知能力降维打击Gemini-AI.x社区图片

我在过去一周里拿到了 o3 pro 的早期访问权限,以下是我的一些初步看法:

上帝渴望上下文

我们正处在「任务特化模型」的时代。一方面,是像 GPT-3.5 Sonnet、GPT-4o 这样的“普通”模型——我们像朋友一样和它们聊天,它们帮我们写东西、回答日常问题;另一方面,是那些庞大、缓慢、昂贵、智商拉满的推理模型,我们会在需要深度分析、解决复杂问题、探索智力边界时调用它们(它们擅长批判性思维)。

关注我 X(推特)的人知道,我与 o 系列推理模型的关系是一段旅程。o1/o1-pro 初体验其实挺差的,但看着大家都在赞美它,我硬着头皮坚持用了一阵,才意识到——原来是我用错了方式。

我写了篇总结,被 @sama ratio(按)了,还被 @gdb 转推。

关键在于: 不要「聊天」,而要把它当作「报告生成器」来用。给它足够多的上下文、设定清晰目标,然后放手让它去跑。

而这正是我现在使用 o3 的方式。

注:这里的“报告生成器”,其实是我们在 AINews、Deep Research、Brightwave 中最常见的 LLM 用法。

o3 pro 更聪明,真的更聪明——但你得喂它很多上下文

问题也正出在这里:它确实更聪明,但你必须给它大量上下文才能看到。我几乎要把上下文喂到断供。

没有那种“问它一个问题就被震撼到”的瞬间。

但我换了种方式。

我和我的联合创始人 Alexis 把我们所有的公司会议记录、目标设定历史,甚至语音备忘录统统整理出来,打包喂给 o3-pro,然后让它制定一个规划方案。

结果令人震撼:它给出的计划不仅具体、合理,而且包含了关键指标、时间线、优先级排序、哪些事情该砍,全部都有——这正是我一直希望 LLM 能做出来的东西。

o3 给的是「合理」的建议,o3 pro 给的是「扎实具体,足以改变我们未来规划思路」的方案。

这种能力,在评测表格上是体现不出来的。

融入真实世界,是下一个挑战

使用 o3 pro 让我意识到:模型的“单兵作战”能力已经太强,我们几乎要用光「标准测试题」了。

接下来的挑战,不是它聪不聪明,而是它能不能真正融入世界。就像一个 IQ 超高的 12 岁少年要上大学:再聪明也没用,如果没法融入社会,还是无法工作。

目前这种「融入」主要靠工具调用:模型能不能和人协作、能不能接入外部数据、能不能与其他 AI 协同?

o3 pro 在这方面确实迈出了一大步。它明显比 o3 更擅长感知自己的环境、准确知道自己有哪些工具、什么信息需要去问外部、该怎么选对工具来完成任务。

如下图左侧所示:o3 pro 对自己处境的理解,明显比 o3 要准确得多。

o3 pro一手真体验!上下文喂到断供!大神:o3 pro不会聊天,上帝渴望上下文,认知能力降维打击Gemini-AI.x社区图片

o3 pro一手真体验!上下文喂到断供!大神:o3 pro不会聊天,上帝渴望上下文,认知能力降维打击Gemini-AI.x社区图片

不足之处

在早期使用中,我也注意到:

如果不给足够上下文,它会有点“过度思考”。它在分析方面很强,使用工具执行任务也很棒,但“直接动手做”的能力反而不如 o3。

比如有些关于 ClickHouse SQL 的问题,反而是 o3 表现更好。

你的使用体验可能会有所不同(YMMV)。

o3 pro一手真体验!上下文喂到断供!大神:o3 pro不会聊天,上帝渴望上下文,认知能力降维打击Gemini-AI.x社区图片

与其他模型相比

o3 pro 给人的感觉和 Claude Opus、Gemini 2.5 Pro 完全不同。

Claude Opus 让人觉得「很大」,但我从没真正感受到它的“大”体现在哪。而 o3 pro 的回答就是比别人好,它的认知水平像是换了一个维度。

OpenAI 现在显然在深耕“垂直强化学习”(Vertical RL)这条路,比如 Deep Research、Codex——不仅是让模型会用工具,而是要让它学会「何时」用工具、为什么用工具。

结语:上下文仍是王道

推理模型的最佳提示方式,其实没变。我之前写的 o1 提示指南依然有效。

上下文就像是喂给饼干怪兽的饼干:这是种“人肉加持的记忆体系”,但它很有效,因为它是有目标的。

系统提示(System Prompt)现在也变得非常重要,模型已经非常可塑,提示词、工具、记忆这些组成的“harness”(约束机制)决定了最终产品的好坏。

像 Cursor 之所以好用,就是 harness 设计得好。

作者最后还附加了一些其他杂项观察,比如:

  • 系统提示对模型行为的塑造,远比 o3 时代更强。
  • 与 Claude Opus、Gemini 相比,o3 pro 是「质的飞跃」。
  • OpenAI 真正在做的是:不是教模型“怎么做”,而是教它“什么时候做、是否该做”。

好了,文章到这里结束了。

多说一嘴,苹果前不久还炮轰了各种推理大模型,说大模型压根不会推理,所谓的深度推理不过是另一种形式的模式匹配而已。

大家如何看待此次 OpenAI 新推理模型的发布呢?有没有一种“天塌了”的感觉,小编认为:或许,我们的确应该重新思考一个问题——

我们继续让大模型聊天、回答问题,已经不重要了!因为聪明不聪明已经不重要了!毕竟智商都超过了人类,剩下的应该问:

大模型「能不能融入现实」,真正成为生产力的人类参与者!

本文转载自​​51CTO技术栈​​,作者:云昭

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐