OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍! 精华

发布于 2025-7-14 07:37
浏览
0收藏

就在半小时前,马斯克的Grok4终于正式发布了。

Grok3.5跳票。老马的直播还迟到1h也是没谁了,全世界都被耍猴。

OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区

最贵版本,300美刀,可以思考大几十分钟,一般人也用不上。

直播表示,Grok-4“能够进行超人级别的推理”(It can reason at a superhuman level!),并且在多项高难度基准测试上实现了对现有顶尖模型的碾压。

Artificial Analysis 获得早期访问权限并发布了 Grok 4 基准测试,数据着实恐怖。

OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区

今天的循环回到了XAI~

OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区

比所有研究生都聪明

马斯克表示:“Grok-4几乎在所有学科上都比人类研究生更聪明。”

OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区

继续延续上一代的阔气:

  • Grok-4的训练量是Grok 2的100倍
  • 在强化学习(RL)阶段投入的算力,是市面上其他任何模型的10倍以上。

xAI认为,可靠的信号是强化学习成功的关键,而他们已经找到了让模型在智能上实现巨大飞跃的路径。

OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区

横扫顶级推理基准,完胜Claude 4

Grok-4在多个被认为是衡量模型推理能力“天花板”的基准上,交出了一份近乎完美的答卷。

  • AIME数学竞赛满分:在AIME25数学竞赛上,Grok-4拿下了满分!这是对模型逻辑推理和数学能力的终极考验。但是图画的很漂亮,满分是调用工具的结果,o3+工具也接近满分。OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区
  • ARC-AGI基准翻倍:在私有的AGI能力测试集ARC-AGI v2上,Grok-4成为了首个突破10%门槛的模型,得分高达15.9%,是第二名Claude Opus 4的两倍还多。OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区
  • Vending Bench夺魁:在另一个衡量复杂任务解决能力的Vending Bench上,Grok-4同样取得第一,净值是Claude Opus 4的两倍。OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区

马斯克:“AI的终极推理测试,是在现实世界中运行。而这些数据表明,Grok-4正朝着解决真实、复杂问题的通用智能体方向大步迈进。”

更强的Agent能力与未来规划

  • 原生工具调用:Grok-4具备了原生的工具调用能力,这使其Agent形态的性能得到显著提升。OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区
  • API与上下文:模型将通过xAI API提供,拥有256K的上下文窗口,并支持实时数据搜索。OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区
  • 多模态能力:除了文本,Grok-4在语音和视频理解方面也进行了重点改进,语音交互速度提升2倍,为构建更强大的多模态智能体铺平了道路。OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区

关于下一步,xAI的目标非常明确:更快、更智能。编程(Coding)和更强大的多模态Agent将是接下来的核心焦点。

OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区

网友初步实测

天气卡片是简陋的。

OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区

写文是低能的。

OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区

做题对了~

OpenAI最强对手出现!马斯克发布Grok-4,性能碾压Claude 4两倍!-AI.x社区

本文转载自​​​探索AGI​​​,作者:猕猴桃

收藏
回复
举报
回复
相关推荐