智能体设计新范式:从任务执行者到环境探索者,让智能体像人类一样成长 精华

发布于 2025-5-30 05:24
浏览
0收藏

当前大多数智能体框架沿袭自顶向下(Top-Down)的设计思路——人类事先定义目标、拆解任务,并构建工作流供智能体执行。这种方法在封闭环境中表现卓越,但当智能体需要在开放、非结构化环境中自主适应和学习时,它们往往力不从心。

问题的症结在于传统的智能体设计过于依赖人工干预,无法自主进化。在自顶向下工作流中,智能体的能力主要依赖预定义的API、任务提示和专家设计的执行路径。但现实世界并非一个由任务明确、结构清晰的操作手册所支撑的环境——相反,它充满了不确定性、动态变化和复杂的交互模式。于是,一种新的范式逐渐被提出:自底向上(Bottom-Up)智能体设计,它模仿人类学习过程,让智能体通过探索、推理和经验积累逐步成长,而不再仅仅依赖人工设定的工作流。

智能体设计新范式:从任务执行者到环境探索者,让智能体像人类一样成长-AI.x社区

图1:代理设计的两种范式。大多数现有的代理框架可以归类为自上而下的代理,它们依赖于预先设计的架构:它们从高级目标开始,将其分解为子任务,并使用特定于任务的API和工具执行工作流。相比之下,我们建议自下而上的智能体充当探索者:从零先验知识开始,它们通过试验和推理逐渐获得技能,通过环境变化推断出的隐性奖励自主进化。

回溯人工智能的发展,我们不难发现自顶向下设计范式的合理性。早期的智能体系统,如ReAct、Plan-and-Solve、AutoGPT等,都遵循类似的模式:给定一个复杂任务,人类会将其分解为可执行的子任务,并设计对应的工作流。智能体的任务是遵循这些流程,高效执行,并在必要时进行调整。这一框架有三个核心问题:

1.静态性:智能体的改进完全依赖于人类的更新,而不是基于自身经验进行演化。

2.先验依赖:必须依靠预定义的任务提示、API才能执行任务,而在开放环境中,这些先验知识可能不存在或难以获取。

3.令牌消耗:智能体的大部分计算资源被用于遵循预设流程,而非基于环境变化进行推理和调整。

对于标准化任务,如数据处理、自动化脚本执行,这种模式仍然十分有效。但在开放世界任务中,如游戏、自动驾驶、智能机器人等,这些智能体无法自主学习或适应新环境,必须依赖人工调整或重新设计工作流。

面对自顶向下方法的局限性,研究人员开始思考——能否让智能体像人类一样,从环境中自主学习技能,而非依赖预设流程? 这一设想与Silver和Sutton提出的“经验时代(Era of Experience)”理念相契合。人类的技能并非通过固定的任务执行得来,而是经历试错、推理和技能归纳的过程。相比传统的方法,自底向上智能体设计更强调探索、技能进化和适应能力。

智能体设计新范式:从任务执行者到环境探索者,让智能体像人类一样成长-AI.x社区

图2:左:自底向上代理仅对原始视觉输入进行操作,并模拟低级鼠标和键盘操作。在没有明确奖励的情况下,它会根据视觉变化或游戏进度等隐含信号学习和改进技能。右图:游戏进度由《文明V》的技术树和视觉变化来衡量。我们的自底向上代理(蓝色)的表现优于所有基线,包括那些具有任务相关先验的基线。

该研究提出了一种新的智能体范式:

  • 智能体从零开始,无需先验知识
  • 通过环境交互,智能体自主学习新技能
  • 技能可共享与优化,使智能体群体得以持续演化

这一方法的核心优势在于,它避免了人为设定任务的局限性,让智能体能够在完全未知的环境中自主学习、进化,并适应挑战。

本研究由来自多个知名机构的研究人员共同完成,他们在人工智能、智能体学习、强化学习与高性能计算等领域具有丰富经验,他们是来自新加坡科技研究局(A*STAR)前沿人工智能研究中心(CFAR)、高性能计算研究所(IHPC)、新加坡国立大学(NUS)、清华大学、电子科技大学(UESTC)的Jiawei Du, Jinlong Wu, Yuzheng Chen, Yucheng Hu, Bing Li, Joey Tianyi Zhou。

这些研究人员的合作涉及智能体技能学习、强化学习优化、大型语言模型推理、计算机视觉等领域,他们共同推进了自底向上智能体设计的落地与验证。

此外,他们已开源该研究的代码,可在 GitHub 访问。

论文链接:​​https://arxiv.org/abs/2505.17673​

项目地址:​​https://github.com/AngusDujw/Bottom-Up-Agent​

1.方法论(Meth​odology)

我们一直在思考如何让智能体变得更智能、更自主、更适应复杂环境,自顶向下的设计方式强调任务规划和结构化执行,但它的局限性在于,智能体只能严格按照预设的路径工作,缺乏灵活性。而自底向上的方法则不同,它让智能体从环境中学习,在试错中进化,在经验积累中找到高效的行动策略。这种范式的背后,是严谨的数学建模和理论支持。

智能体设计新范式:从任务执行者到环境探索者,让智能体像人类一样成长-AI.x社区

图3:自下而上技能演变概述。代理从没有预定义技能开始,通过交互逐渐构建其库S。左:新技能是通过用原子动作扩展现有例程而逐步组成的。中间:通过视觉语言模型(VLM)比较执行前和执行后的状态来评估技能;无效的通过LLM推理进行改进或丢弃。右:在每个时间步,根据当前状态xt选择候选集St,并通过蒙特卡洛树搜索(MCTS)进行评估[40],以选择最有前途的技能。所有组件都在统一的推理框架下运行,没有特权API,允许代理纯粹从经验中获得能力。

为了让智能体能够真正从经验中成长,研究团队采用了部分可观察马尔可夫决策过程(POMDP)作为理论基础。这一方法的核心思想是,智能体无法直接看到整个环境的状态,而只能基于有限的观测信息来做决策。环境由四个关键元素构成:观察空间 X(智能体的视觉输入)、动作空间 A(智能体可执行的原子操作,如鼠标点击或键盘输入)、未知的状态转换函数 T以及隐含奖励 R。智能体的目标是通过不断交互,从这些有限的信息中推测出最优的决策方式。

其中,智能体的技能被定义为一组可组合的原子动作,例如:

技能库 S 记录智能体已掌握的所有技能,并随着时间逐步扩展。每个技能还具备一个语义描述dσ,它由LLM生成,帮助智能体理解技能的意图并进行优化:

智能体设计新范式:从任务执行者到环境探索者,让智能体像人类一样成长-AI.x社区

为了让智能体自主形成技能并优化它们,研究团队设计了技能演化机制。首先是技能增强(Augmentation),智能体从单步动作开始,尝试不同的行为组合,并观察哪些操作能带来环境变化。智能体不会盲目探索,而是采用增量式构建:

也就是说,智能体会在一个已有的技能序列基础上,尝试添加一个新动作,并观察它是否能带来显著环境变化。如果无法产生可见影响,该序列将被丢弃,确保智能体只学习有意义的行为。

在技能调用(Invocation)阶段,智能体需要判断当前环境适用哪些已有技能。它不会简单地随机选择,而是采用蒙特卡洛树搜索(MCTS)来评估候选技能集:

智能体设计新范式:从任务执行者到环境探索者,让智能体像人类一样成长-AI.x社区

蒙特卡洛树搜索通过模拟不同技能的执行结果,选择最可能带来长期收益的技能,确保智能体的行为更加高效。

技能库不会一成不变,智能体需要不断优化已学技能。在技能评估与优化(Refinement)过程中,研究团队设计了一种隐式奖励机制:

智能体设计新范式:从任务执行者到环境探索者,让智能体像人类一样成长-AI.x社区

这个公式的三个部分分别对应:

  • 行为多样性,确保智能体的技能库不被过度重复的技能填满;
  • 执行效率,避免智能体采用冗长的无效动作;
  • 语义对齐,确保技能的意图和实际执行效果一致。

智能体通过不断调整技能库,丢弃低效技能,并利用LLM生成优化后的语义描述,使技能库不断精炼。

研究团队在Algorithm 1中详细列出了技能学习与优化的完整步骤,并在图3中展示了技能库随时间增长的过程。这一框架不仅赋予智能体自主学习能力,还确保它们能在复杂环境中快速适应,最终变得越来越智能。

2.实例化自底向上智能体

在人工智能不断向更具适应性和自主性的方向演化时,如何证明一个智能体真正能够在没有明确指引的情况下学习、适应并进化?研究团队选择了两个极具挑战性的游戏环境——《杀戮尖塔》和《文明5》,作为自底向上智能体的测试场所。这两款游戏的共同特点是,它们没有固定的任务结构、没有预设的奖励机制,也不提供任务子目标或专用 API。

这意味着,智能体无法依赖传统的任务规划或预定义执行路径,而必须完全基于环境反馈来调整行为。更重要的是,这两款游戏都模拟了人类的操作方式:智能体只能通过像素级视觉输入感知环境,并使用鼠标点击和拖动执行动作,与人类玩家的交互方式完全一致。

在这样的环境中,视觉感知成为智能体理解世界的唯一方式。这也是为什么研究团队采用Segment Anything Model(SAM)作为视觉解析工具,使智能体能够自动识别界面中的关键元素,如按钮、菜单、资源信息等。SAM 赋予智能体一种类似人类的视觉处理能力,使它能够区分不同的 UI 组件,并在交互过程中自主推理哪些元素可能是可点击目标。

智能体不会事先知道游戏规则,而是必须通过视觉信息和试错来建立自己的操作逻辑。例如,在《文明5》中,智能体需要理解如何移动单位、如何选择科技发展,而在《杀戮尖塔》中,它必须学会如何拖拽卡牌攻击敌人。没有预设的 API,智能体只能通过观察界面变化,推测自己的行为是否有效,这种方式极大地接近人类玩家的真实体验。

一个关键问题是,如何保证同一架构能够在不同环境中都正常工作?研究团队刻意设计了一种环境无关的推理机制,使得智能体在《杀戮尖塔》和《文明5》中使用完全相同的架构,而不需要针对每个游戏进行特殊优化。这意味着,无论智能体处于何种游戏环境,它都会遵循同样的技能发现、调用和优化逻辑,并在不同环境下不断成长。

然而,当前技能库仍然具有一定的环境特定性:在《文明5》中学会的单位移动策略,并不能直接迁移到《杀戮尖塔》卡牌拖拽任务中。未来,如何实现技能的泛化,使得智能体能够在不同任务场景下复用已有技能,是进一步优化的关键。

这项实验不仅展示了智能体如何在完全开放的环境中自主获取技能,也为未来人工智能的发展提供了重要启示。随着技术进步,我们或许会看到智能体不仅能在不同游戏间学习,还能跨越虚拟世界与现实世界,在更复杂的环境中不断进化。

3.实验设计与评估分析

如果让智能体完全从零开始学习技能,它们是否真的能够像人类一样,在经验中成长,并不断优化自己的行动策略?这是研究团队通过实验所要回答的核心问题。为了测试自底向上智能体的表现,他们选择了两个开放式游戏环境:《杀戮尖塔》和《文明5》。这两款游戏的独特之处在于,它们没有预定义任务、没有明确的奖励机制,也没有专门的API,智能体必须完全依靠环境交互来学习如何执行任务。

智能体设计新范式:从任务执行者到环境探索者,让智能体像人类一样成长-AI.x社区

图4:技能演变和重用分析。(a)随着时间的推移,技能库的大小会通过增加(+)和修剪(-)而增加。(b)《砍倒尖塔》中十大最常被调用的技能。(c)跨环境的组合技能继承示例,展示了如何从原子动作构建更高级的例程。

在实验设计上,研究团队确保所有智能体在相同难度级别回合制模式下运行,避免任何先验知识的影响。为了观察智能体的成长过程,每个智能体都被限制在1000步的最大交互次数,通常需要约 6.5 小时来完成一轮实验。在这样的限制下,智能体必须学会高效利用时间和交互数据,以便在有限的资源内最大化自己的进度和技能获取。实验中的主要评估指标包括:

游戏进度:在《杀戮尖塔》中衡量通过的层数,在《文明5》中计算完成的回合数

策略发展:累计游戏分数和已解锁的科技数量

技能执行响应率:智能体执行动作后导致环境变化的成功率

令牌成本:计算 LLM 在整个实验中的推理资源消耗,并转换为美元成本

在两款游戏中,自底向上智能体的表现远远优于所有基线智能体。尤其是在《杀戮尖塔》中,所有传统方法在没有任务先验的情况下无法取得任何进展,而自底向上的智能体成功突破 13 层,游戏分数达到 81,并且执行响应率高达 98.56%。在《文明5》中,自底向上智能体完成 50 个回合,解锁 8 项科技,展示了较强的探索和适应能力。相比之下,即便基线方法在有任务先验的情况下稍微提升了性能,它们仍然无法像自底向上智能体那样自主优化策略,在开放环境下持续学习。

进一步的分析表明,智能体的技能库随着时间增长,不仅新增了有用技能,同时也剪除了低效技能。在实验的几个轮次中,智能体的技能库规模不断扩大,新技能增强,同时无用的技能被剔除,使整体效率逐步提高。从技能调用频率来看,最常使用的技能逐渐从基本交互(点击、拖拽)演化为更复杂的策略性技能,这种技能继承和优化过程与人类的学习模式非常相似。

智能体设计新范式:从任务执行者到环境探索者,让智能体像人类一样成长-AI.x社区

图5:自下而上代理的提示和执行可视化。(a)用于技能增强和调用的与环境无关的提示,使推理无需访问游戏特定的API。(b)我们设计了一个GUI,在游戏过程中可视化代理的执行状态,显示候选动作、选定目标、推理元数据和相应的技能计划树。

消融实验揭示了智能体学习机制中的几个关键组件对整体性能的影响。其中,视觉变化过滤确保智能体不会学习无效技能,缺失这一组件会导致大量无用操作被保留,从而浪费计算资源。蒙特卡洛树搜索(MCTS)是长时序决策中的关键机制,如果移除它,智能体几乎无法取得任何进展,导致任务失败率大幅上升。而LLM 生成的技能描述则帮助智能体整理和优化其行为,使技能库更加系统化。任何一个组件的消除都会严重削弱智能体的学习能力,影响游戏进度、分数和执行效率。

实验结果不仅展示了自底向上智能体的学习潜力,还提供了未来优化方向的思考。如何让智能体在不同环境间迁移技能?是否可以进一步减少探索开销,让智能体更快地找到有效策略?这些问题在研究的下一阶段将成为关注重点。

4.讨论与广泛影响

自底向上智能体设计的提出,标志着人工智能领域的一个重要突破。它的最大优点在于自主学习能力的提升,让智能体可以不依赖人工定义的任务,而是通过探索环境来积累经验。它不仅解决了传统自顶向下方法的静态性问题,还使得智能体能够随着环境变化不断优化自身的决策逻辑。

通过试错和推理,智能体可以逐步形成完整的技能库,并在多智能体协作中实现知识共享。这种进化方式使得智能体更具适应性,能够在开放世界任务中有效发挥作用,尤其适用于自动驾驶、智能机器人以及复杂策略模拟等领域。

自底向上方法仍然面临一些技术挑战,其中最主要的问题是探索开销过高。由于智能体必须依赖试错来发现有效技能,它需要进行大量无效交互才能找到最优策略。这不仅导致计算资源的消耗增加,也限制了智能体的实际部署效率。此外,技能泛化困难也是一个值得关注的问题。当前的技能库往往受到环境限制,智能体在某个游戏或任务中学习到的技能并不能直接迁移到另一个任务环境。例如,在《杀戮尖塔》中掌握的卡牌拖拽技能,无法直接用于《文明5》的单位调度任务。

如何实现技能的通用化,使得智能体能够在不同任务环境间复用已有技能,是未来研究的关键方向。除此之外,长时序策略不足也是一个问题。尽管智能体能够学习短期技能并优化自身行动,它在长期战略规划上的能力仍然有限。现有的隐式奖励机制更多依赖视觉变化作为反馈,但对于那些需要长期积累才能产生效果的决策,例如文明发展、资源管理等,智能体仍然难以准确识别并执行最优策略。

未来研究可以从多个方面展开,优化技能发现机制可以减少探索开销,让智能体在更短的时间内找到高效技能。这可能涉及强化学习技术的结合,使智能体能够更快地识别哪些行为值得尝试,而不是完全依赖试错。探索跨环境迁移的方法,可以让智能体在不同任务场景下共享技能。这可能涉及视觉语言模型(VLM)与知识图谱的结合,使技能能够以更高层次的抽象方式存储和调用。此外,融合记忆机制也是一个可能的方向。当前智能体在每个任务环境中都是从零开始学习,如果能够引入长期记忆,使得它可以依赖过去的经验来调整当前行动,可能会极大提升学习效率。

在多智能体协同方面,异步探索可能会导致技能库的不一致问题。多个智能体在不同环境下发现并优化技能,但这些技能如何协调更新,避免冲突或冗余?未来可以考虑去中心化协调策略,例如基于信任机制的技能共享模型,或者采用版本控制技术,使得智能体可以根据任务需求选择最适合的技能版本。

此外在大规模智能体部署时,如何保证智能体在不同任务环境中自主优化,并保持共享技能库的合理性?这可能涉及动态权重分配,让智能体能够优先学习那些被其他智能体验证过有效的技能,而不是盲目尝试新技能。

自底向上智能体设计虽然仍处于早期阶段,但它展示了智能体从执行者向探索者转变的可能性。这不仅推动了人工智能的发展,也让我们开始重新思考智能体如何真正具备学习和进化能力。随着计算资源的优化、新技术的融合以及跨环境迁移的突破,我们可能会看到越来越多的智能体具备真正的适应性,从游戏世界走向现实世界,最终成为自主智能系统的一部分。(END)

参考资料:​​​https://arxiv.org/pdf/2505.17673​

本文转载自​独角噬元兽​,作者:FlerkenS

已于2025-6-6 11:40:51修改
收藏
回复
举报
回复
相关推荐