
自己打败自己!Claude Opus 4.1紧急上线!再度刷新AI编程记录,未来数周还有重磅! 原创
今天太魔幻了!
短短几小时内,OpenAI、Anthropic、Google 先后放出新品,直接把八月这场大混战的序幕点燃了!
Anthropic 选择在这个节点紧急上线 Claude Opus 4.1,在编码基准测试上再次登顶。
图片
Opus 4.1 现已向付费 Claude 用户和 Claude Code 用户开放,并同步上线 API、Amazon Bedrock 以及 Google Cloud Vertex AI。
不过,正如一些网友所说,这波更像是应对GPT-5铺天盖地的炒作,而搞了一个临时的小更新。
目的是缓解GPT-5上线后,可能给Claude API收入带来的冲击。
图片
此外,对大多数人来说,自己的编程主力是 Sonnet,而不是这次更新的超大杯 Opus。 如果同类改进下放到 Sonnet,可能会影响更多开发者的日常工作体验。
好消息是,Anthropic 已经放话——未来几周还会有更大的模型更新登场。
图片
一位Hacker News网友期待地说:
鉴于 GPT‑5 的传闻,八月才刚开始。
另一位网友则幽默回复:
按公历和地球轨道,八月确实才刚开始。
图片
看来,这将是注定是AI圈不平凡的一个月。
1.编程性能再度提升,但真实体验更能说明问题
从基准测试来看,Claude这波更新更像是常规操作。
Opus 4.1 在 SWE‑bench Verified 测试中将编码性能提升至 74.5%,刷新了当前的最高分,依旧稳压 OpenAI o3 和 Gemini 2.5 Pro。
根据 Claude 官方文档,新版 Opus 还强化了深入研究与数据分析能力,尤其是在细节追踪和自主搜索方面。
图片
不过,纸面上的分数是一回事,实际体验又是另一回事——有开发者表示,虽然提升幅度看似不大,但上手后的感受可能会非常显著。
这也暴露了当前 benchmark 的一个争议点:它们越来越难真实反映模型在日常使用中的表现。
在 Reddit 上,一位用户分享了自己的实测感受:
“我让它执行了今早做过的同一个任务,结果明显更好。任务是:在一个大型且复杂的代码库中,调查并识别与某个新功能相关的系统与组件。我给了它三个关注领域,并要求为每个领域调用一个子代理,最后将调查结果分别保存成 Markdown 文件。
结果是,Opus 4.1 的搜索行为明显不同,犯错次数减少了。虽然它依然会虚构部分服务、误述 API 和接口,但整体表现的确有所改进。”
图片
2.Claude 全力押注 To B,在技术文档中“点名”大客户
有意思的是,在篇幅并不长的 Opus 4.1 技术文档中,Anthropic 特地留出了一整段展示企业客户的使用反馈。
- GitHub 表示,Claude Opus 4.1 在大多数能力上较 Opus 4 都有提升,尤其是在多文件代码重构中的表现十分突出。
- 乐天集团 发现,Opus 4.1 能在大型代码库中精准定位需要修正的部分,不会做多余改动或引入 Bug,这种精确度在他们的日常调试中尤为重要。
- Windsurf 报告称,在其初级开发者基准测试中,Opus 4.1 相比 Opus 4 提升了一个标准差,幅度大致相当于从 Sonnet 3.7 升级到 Sonnet 4 的跳跃。
值得一提的是,在此前 Windsurf 与 OpenAI 收购案闹得沸沸扬扬之际,Windsurf 曾一度失去 Claude 供应,CEO 连续发帖公开喊话批评 Claude无事前沟通、直接断供。场面一度十分难看。
如今在经历一系列风波后,Windsurf 与 Claude 再度恢复合作,显然关系已经回暖。
这种“客户背书”正好契合 Anthropic 全力做 To B 的战略方向。行业数据显示,Anthropic 在短短 7 个月内,年化经常性收入(ARR)从 10 亿美元飙升至 50 亿美元,增长了整整 5 倍;其中 API 收入高达 31 亿美元,占据半壁江山。
正如 Anthropic CEO Dario 上周所言:
“我们认为,AI 在企业和专业领域的应用,最终可能会超过 C 端市场。”
3.写在最后:编程强势,但 Anthropic 暗藏危机
与 OpenAI、Google 同日更新,Claude 显然也想抢占流量,稀释竞争对手的关注度。
在编程体验上,Claude 系列几乎一骑绝尘,这也为 Anthropic 带来了可观的收入。
但过于集中的客户结构,让这份优势伴随着高风险——在 31 亿美元的 API 收入中,Cursor 和 GitHub 两家就贡献了一半。
图片
这也意味着,一旦 GPT‑5 能在编码能力上对 Claude 发起挑战,并促使 Cursor、GitHub Copilot 等大客户转向 OpenAI,市场格局可能迅速逆转。
尤其是 GitHub 本身隶属于微软,而微软又是 OpenAI 的重要股东——如果双方在编程能力上打成平手,Claude 失去 GitHub 的风险将显著放大。
另一方面,Anthropic 也在积极布局直面企业的 Claude Code。这个产品一经上线,数周内收入就翻倍,年化收入达到 4 亿美元,印证了企业级客户对高性能 AI 编码工具的巨大需求。
Dario出席各种访谈,也把Claude编程能力提升的细节当做最高的商业机密,绝口不提。
接下来,问题的关键在于——GPT‑5 会不会在编程能力上实现大幅跃升?
答案可能很快就要揭晓了。
本文转载自51CTO技术栈,作者:伊风
