从GPT-5看AI:OpenAI再领潮流

发布于 2025-8-12 06:42
浏览
0收藏

OpenAI 正式发布 GPT-5 了。

从GPT-5看AI:OpenAI再领潮流-AI.x社区


公司称这是一个统一的系统,能自己决定回答问题前需要思考多久。Sam Altman 说,GPT-5 就像是你可以“向一个真正的专家、博士级别的专家提问任何问题”,然后得到靠谱的回答。

新模型正逐步向全部 7 亿 ChatGPT 用户开放——是的,哪怕你没花钱买订阅也能用。

看完一小时的发布会后,问题很简单:GPT-5 真有比之前模型大进步,还是被炒过头了?

在这篇文章里,我会详细聊聊 GPT-5 是什么、新功能有哪些、性能数据如何,以及今天起你怎么能用上它。

GPT-5 是什么?

GPT-5 是 OpenAI 取代 GPT-4o 的最新模型。

它被描述为一个统一系统,意思是用户不用手动在“快速”模型和“思考”模型间选来选去。

其实你会发现,在 ChatGPT 里,他们把其他模型都去掉了,只留了 ChatGPT 5。

GPT-5 在 ChatGPT 中:

从GPT-5看AI:OpenAI再领潮流-AI.x社区

GPT-5 用的是 OpenAI 说的 real-time router,会决定是快速回答还是对难题启动“GPT-5 thinking”模式。如果你在输入里写“认真想想”,模型会明确启动更长的推理过程。

一旦你用过了限额,一个更小的“mini”版本会接手处理剩下的问题。OpenAI 说,这种路由决定基于实时信号,比如用户换模型ទ

System: 模型、评分反馈和答案修正情况。路由器会不断学习,越来越聪明。

这个模型还被宣传为更适合 ChatGPT 的常见任务:

• 写作辅助和编辑。

• 编程,尤其是复杂的前端工作和大项目调试。

• 健康相关查询,准确性和语境理解比之前模型更强。

理论上,这个模型能应对大多数常见任务,比如快速回答、复杂研究、创意写作、编程项目,甚至医疗信息(当然有常规免责声明)。

GPT-5 的新功能

GPT-5 比之前模型有几大核心升级。有些是底层技术改进,有些是用户能直接感受到的变化。

更智能的路由和推理:模型现在能自己决定啥时候多想想。这种“test-time compute”方法让它能在难题上花更多算力。思考模式可以自动或手动启动。这是普通用户第一次能用上这种能力——之前这种长推理功能只在研究或企业实验中出现过。

更擅长现实任务:据 OpenAI 说,GPT-5 更不容易出现 hallucination,语境理解更强,尤其是在编程、数学、健康和 multimodal reasoning 领域。他们称普通模式的 hallucination 率比 GPT-4o 低了约 45%,思考模式下比 OpenAI o3 低了约 80%。

更强的编程能力:这个功能被大力宣传。GPT-5 据说能从单一提示生成更美观、更实用的网站、应用和游戏,还能更好地调试大代码库。公司甚至展示了一个一次性生成完整功能游戏“Jumping Ball Runner”的演示。

改进的写作:OpenAI 说 GPT-5 的写作更“resonant”、结构更清晰,处理复杂文学形式的能力更强。这听起来可能有点小众,但对用 ChatGPT 做内容创作的人来说,这意味着初稿质量更高,机械化措辞更少。

健康和专家领域:GPT-5 在 HealthBench 上的得分显著提高,能提供更准确、语境更强的健康回答。OpenAI 还是强调这不能代替医生,但模型现在会主动问澄清问题,标记潜在问题。

个性化风格:你现在可以设置 ChatGPT 以四种预设“个性”回应:Cynic、Robot、Listener 和 Nerd。这样互动更自然,不用老是重写自定义指令。

更安全的回答:对于有风险的问题,GPT-5 不再直接拒绝,而是尽量给部分或高层次的回答。OpenAI 称之为“safe completions”,让模型在灰色地带的回答更细腻,减少用户挫败感。

GPT-5 性能与基准测试

OpenAI 在发布会上提供了不少基准测试数据来支持他们的说法。以下是一些关键数字。

在 SWE-bench Verified(现实世界编程测试)中,GPT-5 的思考模式下 pass@1 达到 74.9%,相比 OpenAI o3 的 69.1% 和 GPT-4o 的 30.8%。

GPT-5 SWE 基准测试。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

图片来源:OpenAI

如果你是前端工程师,你会喜欢 GPT-5 更注重美学、更有野心、更准确。

看看这个用以下提示生成的样本用户界面:

提示:创建一个单页应用,写在一个 HTML 文件里,要求如下:

• 名称:Audio Step Sequencer

• 技术栈:WebAudio API

• 目标:16 步鼓点网格

• 功能:节奏、swing、模式保存/加载、导出 WAV(简单缓冲渲染)

• UI 要未来感,玩起来要好玩!

GPT-5 样本 UI 结果。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

图片来源:Jim Clyde Monge

想了解更多 GPT-5 的编程能力,可以看看 OpenAI 的博客文章。我已经迫不及待想用这个模型写 web 应用了。

说到 web 开发,Cursor 的联合创始人兼 CEO Michael Truell 说,这是他们用过的最聪明的编程模型。

“GPT-5 是我们用过的最聪明的编程模型。我们团队发现 GPT-5 非常智能,易于引导,甚至有种其他模型没有的个性。它不仅能发现深藏的 bug,还能运行长时间、多轮的后台代理,完成复杂的任务——这种问题以前的模型都会卡住。从规划 PR 到完成端到端构建,它都成了我们的日常主力。” —— Michael Truell

是的,GPT-5 现已在 Cursor 上可用。你只需要更新 IDE,然后在模型下拉列表中选 GPT-5。

GPT-5 在 Cursor 上。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

图片来源:Jim Clyde Monge

我还没来得及深入体验这个新模型,但我会在另一篇文章里分享我的想法和感受。

在数学方面,GPT-5 Pro 在 AIME 2025 竞赛基准测试中创下 94.6% 的新纪录,没用任何工具。这比 OpenAI 之前任何模型都高,展现了其长推理模式的效果。

GPT-5 AIME 2025 基准测试。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

图片来源:OpenAI

在其他数学重度测试如 Harvard-MIT Mathematics Tournament (HMMT) 中,它的准确率保持在 90% 以上,对于竞赛级问题来说很强。

在健康领域,GPT-5 的思考模式在 HealthBench Hard 上得分 46.2%,相比 OpenAI o3 的 25.5%。

GPT-5 HealthBench。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

图片来源:OpenAI

这些是高风险的健康对话,事实准确性至关重要。模型在这里的 hallucination 率更低,意味着回答更可靠,但并非完全无误。

在 multimodal reasoning(涉及图像、图表和空间信息的推理)方面,GPT-5 表现也很出色。

GPT-5 MMMU 基准测试。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

图片来源:OpenAI

在研究生级视觉问题解决的 MMMU Pro 基准测试中,思考模式下达到 84.6%,比 GPT-4o 的 83.3% 略有提升。在 VideoMMMU 和 CharXiv-Reasoning 等相关测试中也有更高得分,表明它在文本和视觉输入结合时的表现更强。

想了解更多 GPT-5 与其他模型的评估结果,可以看看 OpenAI 的官方博客文章。

我的个人观察

在结束这部分之前,我想提一下发布会上的一些尴尬说法和柱状图的不一致。

比如,表示 69.1% 的柱子跟 30.8% 的柱子一样高,但它应该高一倍多。而 52.8% 的柱子看起来比 69.1% 的还高。

GPT-5 学术基准测试。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

这看起来太离谱了,不知道是我眼花还是他们真搞错了。

还有,在 Deception Evals 的柱状图上,50.0 的柱子比 47.4 的短很多。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

GPT-5 Deception 评估。

他们没说这些图表是不是用 ChatGPT 做的,但在推广一个强调准确性的工具时,展示有问题的视觉效果可不太好看。

我还注意到这个图表。

GPT-5 GPQA Diamond 基准测试。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

图片来源:OpenAI

如果你说“巨大飞跃”或“全面更聪明”,但新模型的性能只是略超前代,那可不算啥。

Sam Altman 本人在 X 上展示了 GPT-5 的新 UI/UX 生成能力:

当你用上 GPT-5,试试像“用 beatbot 做一个庆祝 GPT-5 的酷炫节拍”这样的指令。这是一个很棒的预览,展示了 AI 开始生成自己的 UX 和更动态的界面。你可以直接与合成器互动,或让 ChatGPT 做调整,太酷了!

从GPT-5看AI:OpenAI再领潮流-AI.x社区

但用户试了这个指令,根本不行,哈哈。

GPT-5 在 ChatGPT 中的失败演示。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

就我而言,它只是把我引导到 App Store 的一个应用列表,挺讽刺的,因为他们还在吹嘘大幅改进的指令遵循和前端生成能力。

最后,我注意到 GPT-5 在 Humanity’s Last Exam 评估中得分低于 Grok 4 Heavy。如下图所示,Grok 4 Heavy 得 44.4%,而 GPT-5 只有 42%。

GPT-5 Humanity’s Last Exam。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

从GPT-5看AI:OpenAI再领潮流-AI.x社区

Grok 4 在 ARC-AGI-2 性能评估中也比 GPT-5 得分高。

GPT-5 vs Grok 4 ARC AGI。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

图片来源:X

这种小细节会影响发布会的可信度。这些细节看似小,但大家都会注意到。

GPT-5 可用性和访问

OpenAI 今天开始向 Free、Plus、Pro 和 Team 用户推出 GPT-5。

Free 用户:能用 GPT-5,但限额较低,之后会切换到 GPT-5 mini。全面推出可能需要几天。

Plus 用户(每月 20 美元):限额更高,默认用 GPT-5。

Pro 用户(每月 200 美元):无限制使用 GPT-5,并可访问 GPT-5 Pro 以获得更长的推理。

Team/Enterprise/Edu:一周内推出,组织范围内的使用限额很宽松。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

它已经在各大平台上出现了。我的新闻推送里满是 Cursor、Lovable 和 Microsoft Copilot 等工具在发布几小时后切换到 GPT-5 的消息。

对于开发者,GPT-5 的 API 现已可用。有三种变体:GPT-5、GPT-5 mini 和 GPT-5 nano,分别针对不同的成本和延迟需求。

GPT-5 模型。图片来源:OpenAI 官网

API 用法很简单,举个例子:

import OpenAI from "openai";
const client = new OpenAI();

const response = await client.responses.create({
  model: "gpt-5",
  input: "Write a short bedtime story about a unicorn.",
});

console.log(response.output_text);

这些模型现已在 OpenAI playground 上可用,你可以测试所有模型。

GPT-5 在 OpenAI Playground 上。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

价格方面,标准层 GPT-5 模型的费率是每百万输入 token 1.25 美元,每百万输出 token 10 美元。如果使用缓存输入,价格大幅降至每百万 token 0.125 美元。

较小的版本便宜得多:

• GPT-5 Mini:每百万输入 token 0.25 美元,输出 token 2 美元(缓存输入 0.025 美元)。

• GPT-5 Nano:最便宜,每百万输入 token 0.05 美元,输出 token 0.40 美元(缓存输入 0.005 美元)。

还有一个 gpt-5-chat-latest,价格与主 GPT-5 模型相同,专为想要最新调优版本的对话用例的开发者设计。

GPT-5 文本 token。

从GPT-5看AI:OpenAI再领潮流-AI.x社区

其他模态的价格可以在这页查看。

总结

看完功能、基准测试和早期反馈后,我不得不说,过去几个月的炒作把期待值拉得太高了。

还有,那些柱状图上的小细节错误让我有点烦。

这些小细节会削弱发布会的可信度。当你推出一个号称更准确、更可信的模型时,柱状图高度不匹配和基准测试视觉效果的不一致显得有点马虎。

总的来说,GPT-5 是个不错的增量升级,但整体……有点让人失望。

总之,接下来的几天我会用 GPT-5 跑一些真实的写作和编程场景,看看它在基准测试幻灯片之外的实际表现。现在,如果你有 Plus 或 Pro 订阅,不妨试试看。

本文转载自​PyTorch研习社​,作者:AI研究生

已于2025-8-12 09:53:42修改
收藏
回复
举报
回复
相关推荐