
OpenAI 最强推理模型 o3 / o4-mini 震撼发布!AI 从此能“看图思考”? 原创
当AI不仅能“看”图,还能“用图思考”,甚至自主调用工具解决现实中的复杂问题,人类与机器的协作边界正在被重新定义。今天凌晨,OpenAI发布的两款新模型o3和o4-mini,不仅刷新了多项性能纪录,更首次将图像深度融入推理链条。
颠覆性突破
首次实现图像思维链整合
图片
OpenAI首次展示了其模型如何嵌入图像进行理性分析的例子。该模型不仅具备“观察”图像的能力,更可以“用图像推导”。这一创新使视觉和文字理解能力深度结合,在多模态基线测试中取得了最高标准。
比如上传一张手写公式的草稿纸,它能识别潦草字迹并解题;看到企业财报图表,还能自动分析趋势生成报告
这些模型在视觉认知任务上实现了前所未有的精确度,解决了以往难以应对的问题。
全能学霸O3:复杂问题的终结者
根据OpenAI公布的数据,O3在Codeforces编程竞赛、SWE-bench软件工程基准和MMMU多学科理解测试中均创造了新纪录。特别值得一提的是,在现实世界的高难度任务中,O3的重大错误率比前代O1模型降低了惊人的20%。
早期测试者将O3形容为"具有极高分析能力的思考伙伴",尤其在以下领域表现突出:
- 生物学、数学和工程领域的新假设提出与评估
- 需要多维度分析的复杂查询
- 图像、图表和图形等视觉任务分析
一位参与测试的科研人员表示:"O3在解决那些答案并不直观的复杂问题时,展现出了接近人类专家的推理能力。"
小巧精悍的O4-mini:性价比之王
与旗舰产品O3一同发布的还有O4-mini,这款"轻量级选手"虽然体积更小,但在数学、编程和视觉任务上却展现出了惊人的性价比。
O4-mini的特点包括:
- AIME 2024/2025基准测试表现最佳之一
- 非STEM任务表现超越前代O3-mini
- 计算效率极高,支持比O3更高的使用频率
对于那些需要推理能力但又预算有限的高频、高吞吐量场景,O4-mini无疑是理想选择。
价格
OpenAI称o3和o4-mini在很多情况下,它们都比各自的前代o1与o3-mini更高效,也更节省成本。
图片
图片
如何尝鲜
4月17日起,OpenAI正式推出全新模型版本,ChatGPT Plus、Team和Pro用户将迎来重大变化——模型选择器中的o1、o3-mini和o3-mini-high将被o3、o4-mini和o4-mini-high取代!而ChatGPT Enterprise和Edu用户则需再等一周才能体验新模型。
免费用户也有福利! 虽然无法直接选择新模型,但你现在可以在输入问题前点击 “Think” 按钮,让系统调用o4-mini的推理能力,抢先感受更强大的逻辑分析!
更值得期待的是,OpenAI还预告了o3-pro的即将上线,它将支持全部工具功能,为专业用户提供更全面的体验。
Codex CLI
OpenAI也发布了一个全新的实验项目:Codex CLI —— 这是一款轻量级的编程智能体,专为最大化模型如o3和o4-mini的推理能力而设计,并计划即将支持GPT-4.1等更多API模型。
Codex CLI的目标在于,让用户可以直接从命令行体验多模态推理,比如向模型传递截图或低保真草图,结合本地代码环境,让模型参与解决实际编程任务。这无疑将提升我们解决复杂编程问题的效率,减少开发时间,提升产品质量。
当开发者能通过自然语言+截图驱动计算机,生产力的爆发将不可想象——唯一的问题是:你的想象力,跟得上 AI 的速度吗?
本文转载自公众号AI 博物院 作者:longyunfeigu
