OpenAI 最强推理模型 o3 / o4-mini 震撼发布!AI 从此能“看图思考”? 原创

发布于 2025-4-21 06:44
浏览
0收藏

当AI不仅能“看”图,还能“用图思考”,甚至自主调用工具解决现实中的复杂问题,人类与机器的协作边界正在被重新定义。今天凌晨,OpenAI发布的两款新模型o3和o4-mini,不仅刷新了多项性能纪录,更首次将图像深度融入推理链条。

颠覆性突破

首次实现图像思维链整合


OpenAI 最强推理模型 o3 / o4-mini 震撼发布!AI 从此能“看图思考”?-AI.x社区图片

OpenAI首次展示了其模型如何嵌入图像进行理性分析的例子。该模型不仅具备“观察”图像的能力,更可以“用图像推导”。这一创新使视觉和文字理解能力深度结合,在多模态基线测试中取得了最高标准。

比如上传一张手写公式的草稿纸,它能识别潦草字迹并解题;看到企业财报图表,还能自动分析趋势生成报告

这些模型在视觉认知任务上实现了前所未有的精确度,解决了以往难以应对的问题。

全能学霸O3:复杂问题的终结者

根据OpenAI公布的数据,O3在Codeforces编程竞赛、SWE-bench软件工程基准和MMMU多学科理解测试中均创造了新纪录。特别值得一提的是,在现实世界的高难度任务中,O3的重大错误率比前代O1模型降低了惊人的20%。

早期测试者将O3形容为"具有极高分析能力的思考伙伴",尤其在以下领域表现突出:

  • 生物学、数学和工程领域的新假设提出与评估
  • 需要多维度分析的复杂查询
  • 图像、图表和图形等视觉任务分析

一位参与测试的科研人员表示:"O3在解决那些答案并不直观的复杂问题时,展现出了接近人类专家的推理能力。"

小巧精悍的O4-mini:性价比之王

与旗舰产品O3一同发布的还有O4-mini,这款"轻量级选手"虽然体积更小,但在数学、编程和视觉任务上却展现出了惊人的性价比。

O4-mini的特点包括:

  • AIME 2024/2025基准测试表现最佳之一
  • 非STEM任务表现超越前代O3-mini
  • 计算效率极高,支持比O3更高的使用频率

对于那些需要推理能力但又预算有限的高频、高吞吐量场景,O4-mini无疑是理想选择。


OpenAI 最强推理模型 o3 / o4-mini 震撼发布!AI 从此能“看图思考”?-AI.x社区

价格

OpenAI称o3和o4-mini在很多情况下,它们都比各自的前代o1与o3-mini更高效,也更节省成本。


OpenAI 最强推理模型 o3 / o4-mini 震撼发布!AI 从此能“看图思考”?-AI.x社区图片

图片

如何尝鲜

4月17日起,OpenAI正式推出全新模型版本,ChatGPT Plus、Team和Pro用户将迎来重大变化——模型选择器中的o1、o3-mini和o3-mini-high将被o3、o4-mini和o4-mini-high取代!而ChatGPT Enterprise和Edu用户则需再等一周才能体验新模型。

免费用户也有福利! 虽然无法直接选择新模型,但你现在可以在输入问题前点击 “Think” 按钮,让系统调用o4-mini的推理能力,抢先感受更强大的逻辑分析!

更值得期待的是,OpenAI还预告了o3-pro的即将上线,它将支持全部工具功能,为专业用户提供更全面的体验。

Codex CLI

OpenAI也发布了一个全新的实验项目:Codex CLI —— 这是一款轻量级的编程智能体,专为最大化模型如o3和o4-mini的推理能力而设计,并计划即将支持GPT-4.1等更多API模型。

Codex CLI的目标在于,让用户可以直接从命令行体验多模态推理,比如向模型传递截图或低保真草图,结合本地代码环境,让模型参与解决实际编程任务。这无疑将提升我们解决复杂编程问题的效率,减少开发时间,提升产品质量。

当开发者能通过自然语言+截图驱动计算机,生产力的爆发将不可想象——唯一的问题是:你的想象力,跟得上 AI 的速度吗?


本文转载自公众号AI 博物院 作者:longyunfeigu

原文链接:​​https://mp.weixin.qq.com/s/zWcwNubAFaIshWbM0WgUWw​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-4-21 06:44:25修改
收藏
回复
举报
回复
相关推荐