再看SWE-Bench:论一个好的benchmark是如何推动2025 Agentic编程范式的发展
社区头条 今天继续来看下经典的codebenchmark之SWEBENCH的细节,其由普林斯顿大学和芝加哥大学联合发表于ICLR2024,Title:SWEbench:CANLANGUAGEMODELSRESOLVEREALWORLDGITHUBISSUES(SWEbench:语言模型能解决真实的GitHub问题吗?)。这篇文章旨在解决当前语言模型(LMs)在代码生成领域评估基准过于简单、无法反映真实世界软件工程复杂性的问题。为此,作者们提出了一个全新的、极具挑战性的评估框架——SWEbench。该框架包含从12个流行的...