订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具! 原创

发布于 2025-7-10 15:53
浏览
0收藏

编辑 | 伊风

马斯克,又双叒叕意料之中地迟到了。

Grok 4 原定的直播足足晚了一个小时,马老板终于姗姗来迟,开始了这场发布会。

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

更加推迟上线的,则是大家原以为会同步上线的编程模型 Grok 4 Code —— 直接鸽到下个月发布,让人有些小失望。

不过,接下来的几个月,xAI 还将陆续推出一款多模态智能体,以及一款具备视频理解与生成能力的综合模型。可以说从7月到10月,Grok 4家族都持续有大动作出来,值得期待。

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

回到这场直播,Grok 4 成为了绝对的主角。

本次共发布两款模型:

  • Grok 4
  • Grok 4 Heavy:xAI 称其为“多智能体版本”,多个 Grok 4 协同工作,性能进一步提升。

“Grok 4 是全球最强大的 AI 模型。”

 马斯克在直播中说:“它在所有学科上的学术水平都超过博士,无一例外。如果到明年 Grok 还没发现点新的科学知识,我会感到很惊讶。”

Grok 4 Heavy 在列出的各项学术基准测试中全面登顶,拿下 SOTA。

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

价格也拉开了差距:

  • 普通版(Grok 4)为 每月 30 美元
  • 超大杯(Grok 4 Heavy)则高达 每月 300 美元!

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

整场直播的演示环节不像上次Grok 3的发布如此密集。

但仍然有些“整活”环节,让人印象十分深刻!首先,就是为了展示Grok的语音交互能力,直接在直播里“拉踩”了OpenAI的4o,从下面这个演示里可以看到Grok的助手“伊芙”反应更迅速、语气更自然。

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区

而另一个点,则是此前Grok 3发布时马斯克就心心念念的AI手搓电子游戏。

到了Grok 4 AI已经做的非常像模像样了,马斯克预计明年就有成熟的大型游戏能跑出来:

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

1.碾压一切的基准成绩——这不就是 AGI?

当 Grok 4 的基准成绩铺天盖地刷屏后,网友们几乎给出了统一的结论:

这不就略等于是 AGI了吗?

从官方发布的测试结果来看,Grok 4 在多个标杆级任务中全面碾压对手,毫无悬念地登顶各项榜单,成为当前最强的 SOTA 模型。

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

比如在 AI 社区关注的 Artificial Analysis 综合测评中,Grok 从上代的 67 分,跃升至 73 分,实现了明显的跨代突破。

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

而在ARC-AGI基准中,Grok 4也直接飞升,将一众对手远远甩在后面。

这项测试的难度在于,它不是传统的问答题,而是要求 AI 具备图形推理、模式识别等“类人类直觉”能力,被视为检验“是否具备 AGI 潜力”的试金石。

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

而在外界称为“人类最后一场考试”(Humanity’s Last Exam)的评估中,Grok 4 Heavy 更是以 44.4% 的高分拔得头筹,远超 Gemini 和 OpenAI 的 o3 模型。

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

甚至在 Claude 曾参与过的“售货机模拟商战”实验中,Grok 也横空出世,成为最会赚钱的 AI 商人:

  • 最终净利润是 Claude 的两倍多
  • 执行时长更长

之所以有这么出色的战绩,是因为Grok 4能有效地制定策略,并在长时间内保持一致性。

他们还提了一个超级疯狂的计划:如果有办法把GPU的成本打下来。就可以尝试搞一百万台自动售货机,然后稳稳赚47亿美元。。。

值得一提的是,Grok 4和Claude 4都超过了人类的经商水平。

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

不过,面对如此梦幻的数据,我们也不能全然“上头”,还是可以泼一点冷水:

首先,官方数据可能具备一些水分。例如,据此前披露,Grok 3 的部分成绩采用了consensus@64”的方式,也就是一题跑 64 次,挑最好的结果出来展示——而对比模型则大多是“一次跑完”的标准流程,这显然是个有些讨巧的“刷榜”策略。

所以,Grok 4 的实际能力还需要权威的独立榜单来进一步验证,建议大家蹲蹲民间榜单,综合评估。

此外,这次 Grok 4 能打得这么猛,也离不开一个“外挂”:

 它已经掌握了调用工具(tools)的能力 —— 不再是光靠语言模型硬算,而是能外接计算器、搜索器、甚至模拟浏览网页。看来,模型即Agent也是一个大趋势。

2.训练飞跃:首次在训练阶段引入工具使用

在 Grok 4 的训练过程中,xAI 做出了一项意义重大的突破:首次在训练阶段就引入了工具使用机制。不再仅依赖语言模型自身的泛化能力,而是让模型从一开始就学会如何调用搜索引擎、计算器等外部工具来完成任务。

这不仅是方法上的革新,更带来了量级上的性能飞跃。

这个操作到底有多猛?看看下面这张图就懂了——

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

可以说,在“工具使用”这件事上,Grok 4 的可靠性和表现已经把前几代模型远远甩在身后。

而且,也有眼尖的网友发现,Grok 4 heavy之后,性能还有上升空间。据爆料说,xAI内部还有更强的模型因为成本问题没有发布!

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

不过,团队也坦言,目前 Grok 使用的工具仍然比较原始。如果拿它与 Tesla 或 SpaceX 等工业场景中的工程工具相比,比如精密的物理模拟和有限元分析系统,它还远远不够。但马斯克明确表示,今年晚些时候,xAI 将为 Grok 接入这些“真正的商业级工具链”,让它具备解决现实科技问题的能力。

而马斯克也提出,终极形态是将 Grok 与 Optimus(人形机器人)结合,实现 AI 主动感知并操作现实世界。

一旦模型拥有了物理交互能力,它就可以自己“动手试验”、修正假设、验证反馈。换句话说,AI 不只是坐在云端思考,而是走进现实世界动手改造它。这将给整个 AI 硬件生态带来颠覆性的冲击。

在Grok他们看来,通向 AGI 的路径,已经不再是“算力够不够”这么简单的问题,而是一个“算力 + 工具 + 实体交互能力”三位一体的大模型工程。

而马斯克也展望说一旦AI具备了该项能力,将引爆一个数千倍甚至百万倍规模的新经济体。

3.写在最后:Gemini 3、GPT-5都在路上了

虽然 Grok 4 的发布引发热议,但战局远未尘埃落定。

据X上的网友爆料,Gemini 3 很快就要登场了。谷歌最近的迭代速度真的既快又狠,眼见要成为领跑者了。

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!-AI.x社区图片

而根据奥特曼此前的透露,GPT-5 将在今夏发布,照这个节奏,接下来一到两个月内,大模型圈还会有更多炸点。

有网友说得很形象:

 “哪有什么AI撞墙期?根本看不到墙在哪里!” 

你看好今天发布的Grok 4吗?

或者,你觉得下个最令人期待的大模型会是哪一家推出的?评论区聊聊你的观点。

本文转载自​​51CTO技术栈​​,作者:伊风


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐