最强编程模型Claude 4 发布!7小时编程封王,AI下一站:不只是工具

发布于 2025-5-23 18:04
浏览
0收藏

北京时间今天凌晨,Anthropic 正式发布 Claude 4 系列模型,包括Claude Opus 4 和 Claude Sonnet 4 两款新模型。其中旗舰模型 Opus 4 以连续 7 小时自主编程的强悍性能,斩获全球最强编程模型称号。
最强编程模型Claude 4 发布!7小时编程封王,AI下一站:不只是工具 -AI.x社区
Claude 4,再度成为了 AI 编程领域当之无愧的王者。

Opus 4 接到重构某开源项目架构的模糊指令后,自主拆解出 23 个子任务:从代码模块解耦、依赖库升级到单元测试覆盖,每一步都生成详细的工作日志。它调用 VS Code 插件修改代码,通过 GitHub Actions 部署测试环境,甚至在遭遇 API 限流时自动切换工具链。

而且整个过程没有人类干预,最终耗时7小时就交付了完整方案。

这意味着 Claude 不再是被问问题的模型,而是能接目标、配资源、做交付的「智能体」。开发者的角色从指挥官变成了为目标设定者。

在编程领域权威评测 SWE-bench 中,Opus 4 以 72.5% 的准确率碾压OpenAI o3(69.1%)和谷歌 Gemini 2.5 Pro(63.2%),而性价比更高的 Sonnet4 也以 72.7% 的成绩反超旗舰模型。

在 Terminal-bench 这一测试复杂终端交互能力的基准测试中,Opus 4 同样以 43.2% 的成绩领先于所有竞争对手。这意味着 AI 已能处理真实开发环境中大部分的琐碎任务。

在内存能力方面,Claude Opus 4 也显著超越了所有前代型号。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息。这能够提升代理在长期任务中的感知能力、连贯性和执行性能。

Claude 4 的变化,不只是性能的提升,更重要的是,人机协作的模发生了改变。

之前的大模型,更多是由人类预设步骤之后进行辅助工作,而现在,人类只需要提供目标,AI 就能主动完成从计划到执行的全部流程。

如果说过去的 AI 竞争聚焦于模型参数、性能的比拼, 那么在未来,真正的较量可能是谁的 AI 能先开始交付成果。

人类对 AI 的期许,已经从先进的工具,上升到能「干活」、具有高产出率的的超级助手,也就是智能体。

这背后,是智能体市场的爆发式增长与全球巨头新一轮的生态卡位战。

收藏
回复
举报
回复
相关推荐