
国庆假期AI圈彻底打疯了,谷歌Gemini 3.0 Pro泄露,血战Claude 4.5! 精华
国庆各种新闻满天飞,大佬们都不过节的。。。
今天快速梳理了一下所有的新闻,给家人们补补课。
Anthropic、OpenAI、Google
假期前后,御三家,接连放出王炸。
谁才是下一代最强模型?
Anthropic Claude Sonnet 4.5
首先是Anthropic,扔出了Claude Sonnet 4.5,世界上最好的编码模型。
在SWE-bench上,Sonnet 4.5拿下了77.2%的平均分,直接把其他所有模型甩在身后。
在无人监督的情况下,连续工作30个小时来处理复杂的多步骤编程任务,内部代码编辑错误率直接从9%降到了0%。
除了写代码,它在操作系统级的任务(OSWorld基准测试)上也把分数从42.2%飙升到61.4%,新模型可以更熟练地操作浏览器、填表格,像一个真正的数字员工。
Google Gemini 3.0 Pro
就在Anthropic发布新品后不久,谷歌内部测试的Gemini 3.0 Pro演示视频就被泄露了,效果只能用惊人来形容。可能是有史以来最强的前端和网页开发模型。
在演示中,无论是模拟物理定律(小球重力摩擦),还是一键生成复杂的终端界面,Gemini 3.0 Pro都显得游刃有余。
坊间传闻,它最快下周就会上线,新一轮AI大战一触即发。
除此之外,还有Gemini 2.5 Computer Use模型发布,实现类人化界面控制。
OpenAI API上新
OpenAI也没闲着。GPT-5 Pro、Sora 2、Sora 2 Pro的API悄然上线。
GPT-5 Pro每百万Token的输出价格120美元。
Sora 2 也是被玩疯了,但是限制比较多,不允许生成真人内容、不允许人脸输入、禁止使用受版权保护的角色和音乐。
GPT-5 Instant更新,更具共情力,特别优化了对自我伤害、强烈绝望、家庭暴力求助等场景的处理。
在10月6日OpenAI DevDay上,OpenAI Agent Builder发布,支持拖拽式构建AI智能体,没啥新鲜的。
国产AI
国内的AI赛道也没放假~ 还有裁员?
模型
- 蚂蚁集团Ling-1T:发布并开源了万亿参数的旗舰模型,在竞赛数学、逻辑推理等多个高难度基准上登顶开源榜首。
- 智谱GLM-4.6:性能全面对齐Claude Sonnet 4,但API价格仅为后者的1/21,打出了“1/7价格享受到Claude Sonnet智能”的口号。
- 腾讯混元图像3.0:在加州大学伯克利分校推出的LMArena全球盲测中,击败26个全球顶尖模型,登顶文生图榜单第一,广子满天飞。
- Qwen继续开源: Qwen/Qwen3-VL-30B-A3B-Instruct,仍然保持跑分王的地位,在智能体任务等领域 reportedly 媲美GPT-5-Mini。。
- 字节跳动豆包大模型:发布豆包大模型1.6-vision,被称为国产最强视觉模型。
裁员
- 智谱AI被曝大裁员及收缩业务线,员工:单方面解除,账号被直接关停
其它花边新闻
OpenAI
- 被曝完成股份出售,估值达5000亿美元,创新高
- 上半年业绩:营收43亿美元,烧掉25亿美元
- 收购个性化金融AI助理应用程序Roi
Anthropic:换帅
本文转载自探索AGI,作者:猕猴桃
