要不要搞多智能体?看看硅谷顶级 AI 公司的经验

发布于 2025-6-27 06:17
浏览
0收藏

最近刷到了一篇来自Cognition AI的博客文章,看完之后我简直有种恍然大悟的感觉。这家公司你可能听说过,就是那个开发了明星AI编程助手Devin的团队。他们在这篇文章里直接开怼了一个在AI Agent领域特别流行的概念——多智能体架构,说得相当犀利:"别再搞多智能体了!"

读完这篇文章,我觉得有必要跟大家"叨叨"一下,因为这些观点可能会颠覆很多人对AI Agent架构设计的认知。

为什么大家都在搞多智能体?

现在一提到AI Agent,很多人第一反应就是搞个多智能体系统。你看,OpenAI推出了Swarm框架,微软有AutoGen,大家都在鼓吹让多个AI智能体相互协作,分工合作完成复杂任务。听起来很美好是不是?就像组建一个超级战队,每个成员都有自己的专长。

但是Cognition的工程师们用血淋淋的事实告诉我们:这种想法在实际应用中简直是个大坑!

多智能体的致命缺陷

让我用一个简单的例子来说明问题所在。假设你要让AI帮你做一个"愤怒的小鸟"游戏。按照多智能体的思路,你会把任务分解给两个子智能体:

要不要搞多智能体?看看硅谷顶级 AI 公司的经验-AI.x社区

智能体A负责做游戏背景,要求是"做一个有绿色管道和碰撞检测的移动背景"。

智能体B负责做小鸟,要求是"做一个可以上下移动的小鸟"。

听起来很合理对不对?但现实是什么样的呢?

智能体A可能误解了你的意图,做出了一个超级马里奥风格的背景。智能体B做了一只小鸟,但完全不像游戏资源,移动方式也跟愤怒的小鸟八竿子打不着。最后,主智能体拿到这两个"四不像"的产品,只能哭着想办法把它们拼在一起。

要不要搞多智能体?看看硅谷顶级 AI 公司的经验-AI.x社区

这就是多智能体架构的第一个致命问题:上下文丢失。每个子智能体都只能看到自己的小任务,看不到整体的大图景,容易产生理解偏差。

更深层的问题:隐式决策冲突

即使你觉得可以通过传递更多上下文来解决上面的问题,但还有一个更要命的问题:隐式决策冲突

继续用刚才的例子。假设你把完整的任务描述都传给了两个子智能体,这次它们都理解了要做愤怒的小鸟游戏。但是,智能体A选择了像素艺术风格,而智能体B选择了3D渲染风格。最终你得到的是一个风格完全不搭的"怪胎"游戏。

问题在于,每个智能体在执行任务时都会做出大量的隐式决策,而这些决策往往是冲突的。就像两个厨师分别做菜,一个做的是川菜,一个做的是粤菜,最后要拼成一桌菜,结果肯定是四不像。

Cognition的解决方案:单线程才是王道

经过大量的试错,Cognition团队得出了一个看似"倒退"的结论:最可靠的架构其实是单线程的线性智能体

要不要搞多智能体?看看硅谷顶级 AI 公司的经验-AI.x社区

这就像是从"多人协作"回到了"一个人包办",但这样做的好处是:

上下文始终保持连续和完整。每一步行动都能看到之前所有的决策和结果。不会出现不同部分之间的风格或逻辑冲突。系统的可靠性大大提高。

要不要搞多智能体?看看硅谷顶级 AI 公司的经验-AI.x社区

当然,对于特别复杂的长期任务,单线程可能会遇到上下文窗口不够的问题。Cognition的解决方案是引入一个专门的"记忆压缩"模型,负责把历史行动和对话压缩成关键信息,类似于人类的长期记忆机制。

现实世界的例子

文章还提到了几个现实世界的例子来佐证这个观点:

Claude Code:虽然会生成子任务,但从不并行工作,子智能体通常只负责回答问题而不写代码,避免了上下文丢失的问题。

编辑应用模型:2024年很多编程智能体都采用了"编辑-应用"的两阶段模型,但经常出现小模型误解大模型指令的问题。现在更多采用单一模型一步到位的方案。

要不要搞多智能体?看看硅谷顶级 AI 公司的经验-AI.x社区

为什么多智能体这么诱人但这么坑?

你可能会问,既然多智能体这么不靠谱,为什么还有这么多人在搞?

原因很简单:看起来很酷,听起来很合理。就像早期的Web开发,大家都在用原始的HTML和CSS拼凑页面,直到React这样的框架出现,才有了标准化的开发模式。

现在的AI Agent开发就处在这个"拼凑"阶段。多智能体架构看起来像是一个很自然的解决方案,但实际上它违背了一些基本的工程原则。

要不要搞多智能体?看看硅谷顶级 AI 公司的经验-AI.x社区

未来会怎样?

Cognition的工程师们并不是完全否定多智能体的未来。他们认为,当单线程智能体变得足够好,能够更好地与人类沟通时,多智能体协作才会变得可行。

就像人类团队协作一样,效果好的前提是每个人都足够聪明,沟通效率足够高。现在的AI还没有达到这个水平。

对我们的启发

这篇文章给我们的启发是:在AI领域,有时候"更简单"反而是"更好"

不要为了追求概念上的"先进"而忽视实际的可靠性。在架构设计时,要优先考虑上下文的完整性和决策的一致性。技术的成熟需要时间,不要急于采用看起来很酷但还不成熟的方案。

所以啊,今天跟大家聊了这么多,其实就是想说:别被那些花里胡哨的多智能体架构迷了眼。有时候,一个设计精良的单线程智能体比一群"各自为政"的多智能体要靠谱得多。

从工程角度来看,AI Agent就像个能干的"全能型选手",而不是一支"各有专长但配合不佳"的团队。当然,随着技术的发展,也许未来真的会有那种配合默契的AI团队,但至少现在,我们还是老老实实地把单个智能体做好吧。

本文转载自​​芝士AI吃鱼,作者:芝士AI吃鱼

收藏
回复
举报
回复
相关推荐