
AI Coding 的新征途
围绕 Windsurf 的收购,OpenAI 与 Google 上演商战大戏。
类似Cursor,Windsurf 也是“AI 编码助手”。作为 GenAI 潜在的杀手级应用,“AI 编码助手” 被行业寄予厚望:
将深刻影响开发效率、重新定义开发方式。
AI 编码助手拖累资深开发者
然而近期非盈利机构 METR的研究【文献1】却发现,AI并没有让资深开发者更高效。
METR 基于随机对照试验设计,对 16 位经验丰富的开源项目开发者进行测试,每人需完成 246 个任务。
开发者预估AI 有助提效 20 %,但客观数据显示:使用如 Cursor Pro + Claude 3.5/3.7 时,平均完成时间反而延长19%。
主要原因梳理如下:
AI 的建议仅有约 44% 被采纳,且大多数代码需要逐行复查与重构(约 9% 的总时间);
在熟悉的复杂项目中,AI 随意修改可能引入额外错误与上下文冲突。
启发是,对资深工程师而言,AI编程助手在处理部分小问题时有些价值;
但并未带来整体效率提升,反而引入更多校对时间和认知干扰。
哈佛商业评论团队的实验
对于 AI 能否重塑软件开发工作中的角色和任务结构,哈佛商业评论团队也基于 GitHub Copilot 做过实验分析【文献2】。
研究表明:
接入 Copilot 后开发者减少协作频率,更倾向于独自完成任务,组织扁平化趋势显现;
开发者侧重进行高度探索性思考(如尝试新框架、实验新方法),而将具体编码任务交由 AI 辅助;
Copilot 对技术经验较少的开发者帮助显著,有助于缩小与资深开发者之间的能力差距;
原本耗费在项目管理、资料搜集、协调沟通上的时间,更多被用到“核心开发”与“创新思考”上。
研究给出这样的务实建议:为开发者提供更多“AI‑辅助自主块”,可以让他们将脑力资源更聚焦在核心设计与创新上,提升工作满意度与创造力。
多Agent协作开发模式
来自清华、悉尼大学等机构的团队,则针对多 Agent 协作开发的模式做了系统化的探索【文献 3】。
研究构建了 ChatDev:一个协同工作的“虚拟软件公司”,由代表多种常见角色的Agent构成。
他们通过 Chat Chain 持续对话协作,覆盖从需求到设计、编码、测试与文档的完整开发流程。
ChatDev具备如下特征:
- 所有 Agent 均基于自然语言通信,避免多模型不一致问题;
- 将大任务拆分成许多子任务,通过对话链协作推进;
- 交流降低幻觉设计,Agent 在执行前会主动提问、澄清需求。
ChatDev 可在少于 7 分钟、低于 1 美元成本内完成一个五子棋游戏的开发。
ChatDev 展示了多 Agent 分工协作远超单一 AI 工具的潜力,能显著改善任务的连贯性与质量;
但其明显的缺点在于成本高——持续运营多模型 Agent 面临资源与费用挑战。
机遇与风险并存
METR强调,当前 AI 尚不足以替代专家,但其认知缓冲仍深受青睐。
哈佛团队指出,AI 效果与策略使用关系紧密,若设计得当,能够释放研发潜力。
ChatDev 则显示,AI 群体合作可提升结构化任务效率,但需克服资源瓶颈。
从单一 AI 辅助到 AI 改变工作方式,再到 AI Agent 协作,各具挑战与适用场景。
这里,笔者看到一条AI Coding 的新征途:任务原子化,把“写代码”拆成“说话”;认知外包,用 AI 代理扩展“个人带宽”;多代理协作,让 AI 之间先“吵”出共识。总结一句话,语言即编译器,自然语言成为最高抽象,把软件工程变成一场多代理的“语言游戏”。
文献1, Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity, https://arxiv.org/abs/2507.09089
文献 2, Generative AI and the Nature of Work,https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5007084
文献 3, ChatDev: Communicative Agents for Software Development ,https://arxiv.org/html/2307.07924v5
本文转载自清熙,作者:王庆法
